KR20210037619A - 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 - Google Patents

멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210037619A
KR20210037619A KR1020210005681A KR20210005681A KR20210037619A KR 20210037619 A KR20210037619 A KR 20210037619A KR 1020210005681 A KR1020210005681 A KR 1020210005681A KR 20210005681 A KR20210005681 A KR 20210005681A KR 20210037619 A KR20210037619 A KR 20210037619A
Authority
KR
South Korea
Prior art keywords
modal
content
knowledge
meaning
result
Prior art date
Application number
KR1020210005681A
Other languages
English (en)
Other versions
KR102532152B1 (ko
Inventor
즈판 펑
하이펑 왕
커신 런
용 주
야줸 뤼
야?k 뤼
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20210037619A publication Critical patent/KR20210037619A/ko
Application granted granted Critical
Publication of KR102532152B1 publication Critical patent/KR102532152B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체를 개시하며, 인공 지능의 기술 분야에 관한 것이다. 구체적인 구현방안에 따르면, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 정확한 의미 이해 결과를 얻을 수 있고, 멀티 모달 콘텐츠의 정확한 응용을 실현하고, 종래기술에서 멀티 모달 콘텐츠에 대한 이해가 정확하지 않은 문제점을 해결한다.

Description

멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체{MULTIMODAL CONTENT PROCESSING METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM}
본 출원은 데이터 처리 기술 분야에 관한 것으로, 특히 인공 지능 기술 중의 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체에 관한 것이다.
그래픽 및 비디오 콘텐츠 리소스는 현재 인터넷의 주요한 리소스 형태로서, 그래픽, 비디오 콘텐츠 등의 다양한 모달리티를 갖는 멀티 모달 콘텐츠에 대한 정확한 이해는 스마트 제품의 중요한 토대이자 핵심적 수요이다.
종래기술에서는 그래픽 및 비디오 콘텐츠 리소스 등의 멀티 모달 콘텐츠의 진정한 의미를 정확하게 이해하기 위하여, 일반적으로 각각 텍스트, 비주얼, 음성 등의 기술을 이용하여 멀티 모달 콘텐츠에 대해 의미 분석을 수행하여, 단일 모달 이해 결과를 획득한 후, 복수의 단일 모달 이해 결과를 융합하여 최종적인 멀티 모달 이해 결과를 획득한다.
그러나, 상술한 방법은 멀티 모달 콘텐츠에 대응되는 물체, 인물 및 문자 등의 지식 포인트를 결정할 수 밖에 없으며, 지식 포인트 간의 관계와 실제로 발생한 이벤트를 명확히 할 수 없고, 의미 이해 결과가 정확하지 않은 문제점이 존재한다.
본 출원의 실시예들에서 제공하는 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체는 기존의 멀티 모달 콘텐츠 처리 방법에서 의미 이해 결과가 정확하지 않은 문제점을 해결하기 위한 것이다.
제1 측면에 따르면, 본 출원은 멀티 모달 콘텐츠 처리 방법을 제공한다. 해당 방법은,
사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것인 단계;
상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하는 단계;
상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 단계;를 포함한다.
본 실시예에서, 멀티 모달 콘텐츠의 멀티 모달 지식 포인트 및 멀티 모달 지식 그래프를 사용하여 멀티 모달 콘텐츠를 이해하므로, 정확한 의미 이해 결과를 획득한다. 멀티 모달 콘텐츠의 정확한 응용을 실현하고, 종래기술에 존재하는 멀티 모달 콘텐츠에 대한 이해가 정확하지 않은 문제점을 해결한다.
제1 측면의 일 가능한 설계에서, 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계는,
상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하는 단계;
상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하는 단계;
상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함한다.
여기서, 상기 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함하고;
상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득된 것이고;
상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과를 융합하여 획득된 것이다.
본 실시예에서, 지식 그래프 기반 연관 결과, 딥 신경망 기반 융합 모델링 결과 및 단일 모달 이해 결과 기반 융합 방안으로 함께 멀티 모달 콘텐츠의 의미 이해를 구현하고, 멀티 모달 콘텐츠의 이해 정확도를 더욱 향상시킨다.
제1 측면의 다른 일 가능한 설계에서, 상기 방법은,
복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하는 단계;
상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하는 단계;
상기 멀티 모달 데이터 집합 중 각 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하는 단계;
지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하는 단계;
상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하는 단계;를 더 포함한다.
본 출원의 기술적 해결수단은, 멀티 모달 지식 그래프를 구축함으로써, 지식 포인트를 위해 의미 해석을 제공하고, 멀티 모달 콘텐츠의 정확한 의미 이해를 실현하기 위한 기반을 마련한다.
제1 측면의 또 다른 일 가능한 설계에서, 상기 방법은,
지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함한다.
제1 측면의 또 다른 일 가능한 설계에서, 상기 방법은,
상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계;
상기 추천 리소스를 상기 사용자에게 푸시하는 단계;
또는,
상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;
상기 텍스트 이해 결과를 기초로 검색 과정을 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하는 단계;를 더 포함한다.
본 실시예의 기술적 해결수단은 리소스의 정확한 추천과 지능적 검색의 정확성을 실현한다.
제2 측면에 따르면, 본 출원은 수신 모듈, 처리 모듈 및 결정 모듈을 포함하는 멀티 모달 콘텐츠 처리 장치를 제공한다.
상기 수신 모듈은 사용자의 콘텐츠 처리 요청을 수신하고, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다.
상기 처리 모듈은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득한다.
상기 결정 모듈은 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.
제2 측면의 일 가능한 설계에서, 상기 결정 모듈은 구체적으로, 상기 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다.
여기서, 상기 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함하고;
상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득된 것이고;
상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과를 융합하여 획득된 것이다.
제2 측면의 다른 가능한 설계에서, 상기 처리 모듈은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로 상기 멀티 모달 지식 그래프를 구축한다.
제2 측면의 또 다른 일 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함한다.
상기 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력한다.
제2 측면의 또 다른 일 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함한다.
상기 처리 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하고;
상기 출력 모듈은 상기 추천 리소스를 상기 사용자에게 푸시하고;
또는,
상기 결정 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하고;
상기 처리 모듈은 또한 상기 텍스트 이해 결과를 기초로 검색 과정을 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하고;
상기 출력 모듈은 상기 멀티 모달 콘텐츠에 대한 검색 결과를 출력한다.
본 출원의 제2 측면에서 제공하는 장치는 제1 측면에서 제공하는 방법을 수행하기 위해 사용될 수 있으며, 그 구현 원리와 기술적 효과는 유사하므로, 여기서는 중복되는 설명을 생략한다.
제3 측면에 따르면, 본 출원은 전자 기기를 제공한다. 해당 전자기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고,
상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면 및 제1 측면의 각각의 가능한 설계에 따른 방법을 실행할 수 있도록 한다.
제4 측면에 따르면, 본 출원은 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면 및 제1 측면의 각각의 가능한 설계에 따른 방법을 수행하도록 한다.
제5 측면에 따르면, 본 출원은 멀티 모달 콘텐츠 처리 방법을 제공한다. 해당 방법은,
외부의 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;
사전에 구축된 지식 그래프와 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함한다.
제6 측면에 따르면, 본 출원은 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 판독 가능 저장매체에 저장되며, 전자기기의 적어도 하나의 프로세서가 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 일 측면 및 제1 측면의 각 가능한 설계에 따른 방안을 수행하도록 한다.
상술한 출원의 일 실시예는 다음과 같은 이점 또는 유리한 효과가 있다. 즉, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은, 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 사용하여 멀티 모달 콘텐츠에 대한 이해를 수행하므로, 멀티 모달 지식 포인트 간의 관계 및 실제로 발생한 이벤트를 명확히 할 수 없는 문제점을 극복하고, 이에 따라 정확한 의미 이해 결과를 획득하고, 멀티 모달 콘텐츠의 정확한 응용을 실현한다.
상술한 형태에 따른 기타 효과는 아래에서 구체적인 실시예와 결합하여 설명된다.
첨부된 도면은 본 해결수단을 더 쉽게 이해할 수 있도록 제공되는 것으로서, 본 출원에 대한 한정은 아니다.
도 1은 본 출원에 따른 멀티 모달 콘텐츠 처리 방법의 일 응용 시나리오를 나타내는 도면이다.
도 2는 본 출원의 제1 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 3은 육아 시의 일 장면을 나타내는 도면이다.
도 4는 본 실시예에 따른 멀티 모달 콘텐츠의 처리를 나타내는 도면이다.
도 5는 본 출원의 제2 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 6은 본 출원의 제3 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 7은 멀티 모달 지식 그래프를 구축하는 프레임 워크 개략도이다.
도 8은 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 장치의 구조도이다.
도 9는 본 출원의 실시예의 멀티 모달 콘텐츠 처리 방법을 구현하기 위한 전자 기기의 블록도이다.
아래에서는 첨부 도면과 결합하여 본 출원의 예시적인 실시예에 대하여 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들을 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않음을 이해하여야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.
본 출원의 기술적 해결수단을 소개하기 전에, 먼저 본 출원과 관련된 용어에 대해 해석한다.
멀티 모달 콘텐츠:
멀티 모달 콘텐츠는 다양한 모달리티를 갖는 리소스로서, 각종 정보의 출처나 형태는 모두 모달이라고 지칭될 수 있다. 예를 들어, 사람은 촉각, 청각, 시각 및 후각을 갖는다. 정보의 매체로서 음성, 비디오, 텍스트 등이 있다. 다양한 센서로서, 레이더, 적외선 및 가속도계 등이 있다. 상술한 각각의 종류는 일 종류의 모달이라고 할 수 있다. 또한, 모달은 매우 광범위한 정의를 가질 수 있다. 예를 들어, 두 가지 다른 언어도 두 가지 모달으로 간주될 수 있으며, 두 가지 서로 다른 상황에서 수집된 데이터 집합도 두 가지 모달로 간주될 수 있다.
지식 그래프:
지식 그래프는 지식의 구조화 표현 형태로서. 노드와 에지가 그래픽 형태로 구성된다. 지식 그래프의 노드는 지식 포인트라고도 지칭될 수 있으며, 그 나타내는 정보는 엔티티, 개념, 이벤트, 동작, 기능, 테마, 시나리오, 소스, 시각적 리소스, 음성 리소스, 텍스트 리소스, 사용자 행위 등을 포함하지만 이에 제한되지 않는다. 상응하게, 지식 그래프의 에지도 지식 포인트 간의 연관 관계로 지칭될 수 있으며, 그 나타내는 정보는 속성, 종속, 타이밍 및 인과 관계 등을 포함하지만 이에 제한되지 않는다.
여기서, 지식 그래프의 엔티티는 예를 들어 인물, 동물, 식물 등과 같은 객관적인 세계에 존재하는 일부 대상을 해석할 수 있다. 개념은 노동자, 스타, 아기, 엄마와 같은 동일한 속성을 가진 엔티티로 이루어진 조합으로 해석될 수 있으며, 이는 일부 시나리오에서 동작과 동일한 해석을 가질 수 있으며, 테마는 화제로 이해할 수도 있는 바, 예를 들어, 인공 지능, 통신 등이 있다. 시나리오는 노동 장면, 식사 장면, 학습 장면 등과 같은 일상 생활에서의 구체적인 장면 또는 상황을 가리킨다. 소스는 리소스의 출처를 나타는 바, 예를 들어 비디오 리소스는 개인 계정에서 제공되고, 교육 리소스는 교육 기관의 계정에서 제공되는 것 등이 있다. 시각적 리소스는 비디오 파일, 이미지 파일과 같은 다양한 형태의 시각적 파일을 가라킨다. 음성 리소스는 음악 및 통화와 같은 리소스가 될 수 있다. 텍스트 리소스는 문서 등이 될 수 있다.
위의 내용은 지식 그래프의 지식 포인트에 대한 간단한 설명일 뿐이라는 점에 유의할 필요가 있다. 실제 응용에서 지식 그래프의 지식 포인트는 다른 내용도 포함할 수 있으며, 본 출원은 상술한 지식 포인트의 표현 형태에 제한되지 않는 바, 이는 실제 상황에 따라 결정될 수 있다.
현재, 지식 그래프는 인공 지능의 일 핵심적 기술로서, 텍스트 이해, 지능 추천, 지능적 검색 등과 같은 다양한 임무에 널리 사용되고 있다. 여기서, 텍스트 이해의 경우, 주어진 텍스트를 처리하여 복수의 텍스트 조각을 획득하고, 획득한 복수의 텍스트 세그먼트를 지식 그래프 중의 지식 포인트와 연관시킨 다음, 연관 결과를 기초로 텍스트의 의미 이해 결과를 결정하는 것으로 해석할 수 있다. 지능 추천의 경우, 사용자가 보고있는 동영상이나 검색하고 있는 콘텐츠에 대해 의미 이해를 수행하고, 지식 그래프를 결합하여 사용자가 실제로 주목하는 이벤트를 추리하고, 해당 이벤트를 기초로 사용자에게 유사한 콘텐츠를 추천하는 것으로 해석 할 수 있다. 지능적 검색의 경우 텍스트 단어가 적은 시나리오에 적용될 수 있으며, 먼저 사용자의 관심을 갖는 리소스를 처리하고, 지식 그래프를 결합하여 사용자가 실제로 관심을 갖는 이벤트를 추리하고, 텍스트 형태를 기반으로 해당 이벤트를 나타냄으로써, 해당 이벤트의 텍스트로 리소스를 검색할 때 보다 많은 검색 결과를 얻을 수 있다.
아래에서는 도 1을 결합하여 본 출원의 실시예에서 설계된 시스템 구조를 설명한다. 도 1은 본 출원에 따른 멀티 모달 콘텐츠 처리 방법의 일 응용 시나리오의 개략도이다. 도 1에 도시된 바와 같이, 해당 응용 시나리오는 훈련 기기(11), 처리 기기(12) 및 데이터 저장장치(13)를 포함할 수 있다. 예시적으로, 도 1에 도시된 응용 시나리오에서, 훈련 기기(11)는 웹 페이지로부터 지식 그래프를 구축하기 위한 멀티 모달 콘텐츠를 획득하여, 데이터 저장장치(13)에 저장함으로써, 이 후에 멀티 모달 지식 그래프를 구축할 때 직접 사용할 수 있도록 한다. 처리 기기(12)는 외부로부터 입력되는 처리될 멀티 모달 콘텐츠를 수신하고, 해당 멀티 모달 콘텐츠를 처리할 수 있으며, 처리 결과를 데이터 저장장치(13)에 저장할 수 있다.
본 실시예에서, 데이터 저장장치(13)는 지식 그래프를 구축하기 위한 대량의 멀티 모달 콘텐츠를 저장할 수 있으며, 처리 기기(12)의 처리 결과도 저장할 수 있다. 훈련 기기(11)는 데이터 저장장치(15) 중의 지식 그래프를 구축하기 위한 멀티 모달 콘텐츠를 기초로, 지식 그래프 구축 방법의 프로그램 코드를 실행하여, 멀티 모달 지식 그래프를 구축하도록 구성된다. 처리 기기(12)는 데이터 저장장치(13) 중의 처리될 멀티 모달 콘텐츠를 기초로 멀티 모달 콘텐츠 처리 방법의 프로그램 코드를 실행하여, 멀티 모달 콘텐츠의 의미 이해 결과를 획득하도록 구성된다.
해당 멀티 모달 지식 그래프는 일종의 일반 지식 그래프임을 이해할 수 있다. 일반 지식 그래프는 훈련 기기가 획득한 다양한 모달의 콘텐트에 대해 처리하여 구축된 지식 그래프이다. 실제 응용에서, 멀티 모달 지식 그래프는 일반 지식 그래프에 피드백할 수 있으며, 일반 지식 그래프에 대해 선별하여 멀티 모달 지식 그래프를 획득할 수 있다.
특별히 설명하면, 도 1은 본 출원의 실시예에 따른 응용 시나리오의 개략도일 뿐, 도 1에 도시된 기기들 사이의 위치 관계는 아무런 제한도 받지 않는다. 예를 들어, 도 1에서, 데이터 저장장치(13)는 처리 기기(12)에 대해 외부 메모리일 수 있다. 다른 경우에는, 데이터 저장장치(13)가 처리 기기(12)에 구비될 수도 있다. 본 출원의 실시예에서 훈련 기기(11) 및 처리 기기(12)는 동일한 기기 또는 서로 다른 기기일 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
예시적으로, 아래에서는 훈련 기기(11)와 처리 기기(12)가 동일한 전자 기기인 것을 예로 들어, 본 출원의 기술적 해결수단을 상세하게 설명한다. 본 출원의 실시예는 전자 기기가 서버 또는 단말 기기인지에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.
이하, 구체적인 실시예를 통해 본 출원의 기술적 해결수단을 상세하게 설명한다. 아래의 몇몇 실시예는 서로 결합될 수 있으며, 일부 실시예에서는 동일하거나 유사한 개념 또는 과정에 대한 중복되는 설명을 생략한다.
도 2는 본 출원의 제 1 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 2에 도시된 바와 가팅, 해당 방법은 아래의 단계를 포함할 수 있다.
사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다(단계 S201).
본 출원의 실시예에서, 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여야 할 때, 사용자는 전자 기기로 콘텐츠 처리 요청을 제공할 수 있으며, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠를 포함한다. 상응하게, 전자 기기는 해당 콘텐츠 처리 요청을 수신하여 인식한 후, 콘텐츠 처리 요청 중의 처리될 멀티 모달 콘텐츠를 분석하여, 해당 멀티 모달 콘텐츠에 대응되는 의미 이해 결과를 결정할 수 있다.
사용자는 다양한 방식으로 전자 기기에 콘텐츠 처리 요청을 제공할 수 있다는 것을 이해할 수 있다. 예를 들어, 클릭 조작, 터치 조작, 가압 조작 또는 음성 입력 등의 방식 중 적어도 하나를 통해 전자 기기로 콘텐츠 처리 요청을 제공할 수 있다. 본 출원은 사용자가 콘텐츠 처리 요청을 제공하는 방식에 대해 한정하지 않으며, 실제 응용 시나리오에 따라 결정할 수 있다. 예를 들어, 휴먼-컴퓨터 인터랙션 인터페이스를 구비하는 전자 기기의 경우, 사용자는 해당 휴먼-컴퓨터 인터랙션 인터페이스에서 조작하여 콘텐츠 처리 요청을 제공할 수 있으며, 휴먼-컴퓨터 인터랙션 대화를 구비하는 스마트 기기의 경우, 사용자가 음성 명령을 통해 제공하는 콘텐츠 처리 요청을 획득할 수 있다.
예시적으로, 본 실시예에서, 처리될 멀티 모달 콘텐츠는 영화 클립, 일상 생활 스몰 비디오와 같은 비디오일 수 있고, 신분증 카드 이미지와 같은 텍스트 이미지일 수도 있다. 본 출원의 실시예는 멀티 모달 콘텐츠의 표현 형태에 대해 한정하지 않으며, 실제 경우에 따라 결정할 수 있다.
멀티 모달 콘텐츠에 대해 해석하여, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득한다(단계 S202).
본 실시예에서, 전자 기기는 사용자의 콘텐츠 이해 요청을 수신한 후, 먼저 콘텐츠 처리 요청 중의 멀티 모달 콘텐츠를 결정한 다음, 해당 멀티 모달 콘텐츠에 대해 해석하여 멀티 모달 콘텐츠에 포함된 멀티 모달 지식 포인트를 결정한다.
예시적으로 멀티 모달 콘텐츠에 대한 해석은 주로 시각, 음성, 텍스트와 같은 멀티 모달 콘텐츠가 갖는 복수의 모달을 기반으로 하며, 이러한 모달은 의미 이해의 기본 콘텐츠가 될 수 있다. 본 출원의 실시예는 주로 시각적 분석, 음성 인식 및 텍스트 이해 기술을 사용한다. 예를 들어, 비디오는 서로 다른 차원으로부터 이해할 수 있는 바, 시각적으로는, 얼굴 분석을 통해 비디오에 등장하는 사람들을 확인하고, 광학 문자 인식(optical character recognition, OCR)을 통해 비디오에 등장하는 문자, 동물 및 물체를 확인한다. 음성의 경우, 인물의 음성을 텍스트로 변환한 후, 비디오 자체에 포함되는 텍스트와 결합하여 의미 이해 등을 수행한다.
예를 들어, 도 3은 육아 시의 일 장면을 나타내는 도면이다. 도 3에 도시된 바와 같이, 비디오 클립(텍스트, 시각적 및 음성 정보 포함)을 예로 들면, 해당 장면에서, 해당 멀티 모달 콘텐츠는 육아 시의 일 스몰 비디오이다. 『비디오에서: 한 여성이 아기를 두드리고 있으며; 비디오에 문자 설명은 아기 수유 후 젖을 토하고 딸꾹질을 하게 되는데, 엄마는 이렇게 해야 한다』이 포함되어 있다. 시각적으로 (아기, 엄마, 두드리는 동작)을 이해할 수 있고, 텍스트를 통해 키워드(젖 토출, 아기, 딸꾹질) 등을 이해할 수 있다. 즉, 해당 멀티 모달 컨텐츠에 대응되는 멀티 모달 지식 포인트는 인물 『엄마, 아기』, 동작 『두드림, 등 두드림』 등을 포함할 수 있다.
상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다(단계 S203).
여기서, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 해당 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.
본 실시예에서, 멀티 모달 지식 그래프에 포함된 멀티 모달 지식 포인트와 해당 멀티 모달 지식 포인트 간의 관계는 대량의 멀티 모달 콘텐츠 샘플에 대해 해석하고 실생활에서의 경험 지식을 기초로 해석한 결과에 대해 훈련하여 획득되는 지식 그래프이다.
멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트는 적어도 2 개의 지식 포인트일 수 있으며, 본 실시예에서 멀티 모달 지식 포인트는 해석에 의해 획득되는 복수의 지식 포인트에 대한 총칭임을 이해할 수 있다.
예시적으로, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트가 결정되면, 먼저 해당 멀티 모달 지식 포인트와 멀티 모달 지식 그래프 간의 연관 관계를 구축한 다음, 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 결합하여, 표현 학습, 지식 연관 및 계산 추리 등의 기술을 통해 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정할 수 있다.
여기서, 지식 연관은 멀티 모달 콘텐츠와 멀티 모달 지식 그래프의 연관 문제점을 해결할 수 있다. 구체적으로 지식 연관 단계는, 주로 지식 인식, 지식 연관 순서 배열 및 의사 결정을 포함한다. 계산 추리는 지식 그래프, 멀티 모달 콘텐츠 및 융합 정보를 결합하여, 멀티 모달 콘텐츠의 숨겨진 정보를 계산하고 추리하는 것으로 이해할 수 있다.
예를 들어, 위의 도 3의 장면을 나타내는 개략도의 경우, 시각적 분석과 텍스트 이해를 통해 인물 『엄마, 아기』, 동작 『두드림, 등 두드림』을 인식할 수 있고, 시각적 분석을 통해 『엄마가 아기의 등을 두드리고 있는 것』을 확인할 수 있다. 이러한 지식 포인트를 멀티 모달 지식 그래프에 관련시킨다. 예를 들어, 아기를 멀티 모달 지식 그래프 중의 아기와 관련시키고, 엄마는 멀티 모달 지식 그래프 중의 엄마, 등 두드림 동작, 젖 토출 등과 관련시킨다. 멀티 모달 지식 그래프 중의 엄마, 아기, 등을 두드리는 동작, 젖 토출 등을 기초로 비디오에서 실제로 발생한 이벤트인 『엄마가 아기의 딸꾹질을 해결 중』(참고: 딸꾹질은 육아 분야의 장면 용어임)을 추리해내고, 이는 바로 해당 비디오의 의미 이해 결과이다.
다른 예를 들어, 만약 멀티 모달 콘텐츠가 일 영화의 일 클립 『동영상에서: 옥상에서 두 사람이 마주 서 있으며, 한 사람이 다른 사람의 이마에 총을 겨누고 있다; 클립에는 "미안, 나는 경찰이다"라는 문자 설명 포함』이면, 이때, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트는 장면 『옥상』, 엔티티 『사람, 총』, 동작 『총 겨눔』 등을 포함할 수 있다. 이때, 멀티 모달 지식 그래프를 더 결합하면, 영화 "무간도(Infernal Affairs)"의 한 클립임을 추리해낼 수 있으며, 해당 영화 클립의 의미 이해 결과를 추리해낼 수 있다.
예시적으로, 도 4는 본 실시예에 따른 멀티 모달 콘텐츠의 처리를 나타내는 도면이다. 도 4에 도시된 바와 같이, 본 실시예에서 멀티 모달 콘텐츠의 처리 프로세서는 오프라인 프로세스와 온라인 프로세스를 포함할 수 있다. 여기서, 오프라인 프로세스는 주로 범용 지식 그래프와 멀티 모달 콘텐츠 샘플을 기초로, 멀티 모달 지식 그래프를 구축한다. 온라인 프로세스는 외부로부터 입력되는 멀티 모달 콘텐츠를 수신하고, 멀티 모달 콘텐츠 해석을 수행하여 멀티 모달 지식 포인트를 획득한 다음, 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 연관시키고, 멀티 모달 콘텐츠 해석 결과와 멀티 모달 지식 그래프를 멀티 모달 융합하고, 멀티 모달 지식 그래프를 결합한 기초 상에서 의미 이해를 수행하여 의미 이해 결과를 출력한다.
상기 분석에 따르면, 본 실시예에서, 텍스트, 시각, 음성 등의 멀티 모달 콘텐츠 및 사전에 구축된 멀티 모달 지식 그래프를 통합적으로 이용함으로써, 멀티 모달 콘텐츠의 의미 이해를 효과적으로 실현하고, 의미 이해가 정확하지 않은 문제점을 방지한다.
또한, 본 출원의 실시예에서, 멀티 모달 콘텐츠의 의미 이해 결과를 결정한 후, 의미 표현 방식을 통해 의미 이해 결과를 표현할 수 있다. 여기서, 의미 표현은 명시적 의미 표현과 암시적 의미 표현을 포함할 수 있다. 명시적 의미 표현은 지식 그래프 기반 의미 표현을 포함하고, 암시적 의미 표현은 멀티 모달 콘텐츠와 명시적 이해 결과의 벡터 표현을 의미한다.
예를 들어, 딸꾹질 이벤트의 경우, 명시적 의미 표현의 출력은, 이벤트는 딸꾹질이고, 엔티티로서 엄마, 아기가 있고, 동작은 등 두드림 동작, 젖 토출 등이 있이며, 암시적 의미 표현은 이해된 이벤트를 벡터 형태로 표현하는 것이다.
예시적으로, 본 실시예는 멀티 모달 표현 학습을 통해 멀티 모달 콘텐츠의 표현 문제점을 해결하며, 주로 딥러닝 네트워크 기반 표현 학습, 그래프 신경망(graph neural network,GNN) 기반 표현 학습, 네트워크 표현 학습 등의 방법을 포함한다.
본 실시예에서의 의미 이해 결과는 정확한 의미 이해 정보를 포함하며, 예컨대, 지능 추천, 지능적 검색 및 지능 대화 시스템 등의 시나리오와 같은 스마트 애플레케이션에 응용될 수 있다.
구체적으로, 본 실시예의 일 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,
지식 그래프의 의미 표현 방법을 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함할 수 있다.
본 실시예에서, 멀티 모달 콘텐츠의 의미 이해 결과를 획득한 후, 직접 출력해야 할 경우, 의미 표현 방법과 같은 명시적 방식으로 출력할 수 있으며, 여기서, 해당 명시적 방식은 사용자가 쉽게 이해할 수 있는 형태이다.
예를 들어, 위 육아 장면의 비다오 클립은 "딸꾹질" 이벤트를 텍스트 형태로 직접 출력하여, 사용자가 해당 비다오의 진정한 의미를 바로 확인할 수 있도록 할 수 있다.
본 실시예의 다른 일 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,
해당 의미 이해 결과의 벡터 표현을 기초로, 유형이 해당 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계; 해당 추천 리소스를 해당 사용자에게 푸시하는 단계;를 더 포함할 수 있다.
예를 들어, 사용자가 어떤 유형의 비디오을 시청할 때에는, 해당 유형의 비디오에 보다 관심을 가짐을 의미하므로, 멀티 모달 콘텐츠에 대응되는 의미 이해 결과를 지능 추천 장면에 적용할 때, 상술한 결정된 의미 이해 결과는 벡터로 표현될 수 있으며, 의미 이해 결과의 벡터 표현을 직접 지능 추천의 입력으로 하여, 네트워크 리소스에서 유형이 해당 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하여 사용자에게 푸시함으로써, 지능 추천의 정확도를 향상시킨다.
예를 들어, 사용자가 시청하는 비디오는 딸꾹질을 정확하게 두드리는 것에 대한 비디오이고, 해당 비디오 재생 완료 후, 전자 기기는 딸꾹질의 벡터 표현을 기초로, 네트워크 리소스로부터 딸꾹질을 정확하게 두드리는 방법을 가르치는 다른 일 비디오를 결정하여, 리소스의 정확한 추천을 달성할 수 있다.
본 실시예의 또 다른 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,
해당 의미 이해 결과의 벡터 표현을 기초로, 해당 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;
해당 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 해당 멀티 모달 콘텐츠에 대한 검색 결과를 획득하고, 해당 멀티 모달 콘텐츠에 대한 검색 결과를 출력하는 단계;를 더 포함할 수 있다.
본 실시예에서, 비디오는 일반적으로 문자가 보다 적기 때문에, 사용자가 입력한 비디오를 기초로 콘텐츠 검색을 수행할 때, 획득되는 검색 결과가 보다 적어, 검색 결과가 정확하지 않은 문제점이 발생할 수 있다. 그러나 상술한 결정된 의미 이해 결과를 벡터로 표현하여, 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하고, 해당 텍스트 이해 결과를 지능 검색의 입력으로서 사용함으로써, 보다 많은 검색 결과를 결정할 수 있으므로, 지능 검색의 정확성을 향상시킨다.
본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법은 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 결합하여 멀티 모달 콘텐츠에 대해 이해하므로, 정확한 의미 이해 결과를 얻을 수 있으며, 멀티 모달 콘텐츠의 정확한 응용을 위한 기반을 마련한다.
예시적으로, 상술한 도 2에 도시된 실시예의 기초 상에서, 도 5는 본 출원의 제2 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 5에 도시된 바와 같이, 본 실시예에서, 위의 S203은 아래의 단계를 통해 구현될 수 있다.
멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 멀티 모달 지식 포인트 간의 연관 관계를 결정한다(단계 S501).
본 실시예에서, 결정된 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트에 대해, 멀티 모달 지식 그래프를 조회함으로써 해당 멀티 모달 지식 그래프에 대응되는 멀티 모달 지식 포인트 존재 여부를 판단할 수 있다. 만약 존재한다면 둘 간에 연관 관계를 갖는다고 판단하고, 실제 응용과 결합하여, 멀티 모달 지식 포인트 간의 연관 관계를 결정한다.
예시적으로, 멀티 모달 지식 포인트 간의 연관 관계는, 엔티티 속성, 엔티티 관계, 엔티티 종속 관계, 포함(part of) 관계, 패싯 관계(facet Of), 관련(related Of) 등 중 적어도 하나를 포함한다.
본 출원의 실시예는 멀티 모달 지식 포인트 간의 연관 관계의 구체적인 표현 형태에 대해 한정하지 않으며, 이는 실제 경우에 따라 결정될 수 있다.
멀티 모달 지식 포인트 및 기설정된 의미 이해 방법을 기초로, 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정한다(단계 S502).
예시적으로, 해당 기설정된 의미 이해 방법은 기설정된 딥러닝 방법 및/또는 기설정된 융합 방법을 포함할 수 있으며, 상응하게, 본 실시예에서의 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함할 수 있다.
여기서, 제1 의미 이해 결과는 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되는 것이고; 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것이다.
일 예시로서, 각 모달에서 멀티 모달 콘텐츠에 대한 이해를 수행한 후, 각 모달의 정보 즉, 멀티 모달 지식 포인트를 얻을 수 있으며, 멀티 모달 지식 포인트를 딥 신경망(deep neural networks, DNN)을 통해 융합하여 벡터로 표현하며, 다른 응용 시나리오와 결합하여 제1 의미 이해 결과를 얻을 수 있다.
다른 일 예시로서, 멀티 모달 콘텐츠에 대하여, 먼저 각각 텍스트, 시각, 음성 등의 이해 기술을 사용하여 단일 모달 의미 이해 결과를 얻은 다음, 기설정된 융합 방법을 기초로 모든 단일 모달 의미 이해 결과에 대해 융합하여 제2 의미 이해 결과를 얻는다.
본 출원의 실시예에 따른 제1 의미 이해 결과와 제2 의미 이해 결과는 두 가지 방법으로 획득되는 기본 의미 이해 결과를 구분하기 위한 것일 뿐, 구체적인 관계를 한정하지 않음을 이해할 수 있다.
상술한 멀티 모달 지식 포인트 간의 연관 관계, 기본 의미 이해 결과 및 멀티 모달 지식 그래프를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다(S503).
일 가능한 실시형태에서, 해당 단계는 멀티 모달 융합 과정으로 해석할 수 있으며, 멀티 모달 융합은 주로 멀티 모달 지식 포인트의 통일 모델링을 해결함으로써, 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다.
본 출원은, 다양한 방법을 사용하여, 지식 그래프 기반 관련 정렬 융합, 딥 신경망 기반 융합 모델링, 단일 모달 이해 결과 기반 융합 등의 멀티 모달 융합 문제를 종합적으로 해결한다. 여기서, 지식 그래프 기반 관련 정렬 융합은 멀티 모달 콘텐츠와 지식 그래프의 연관성을 모델링하고, 지식 그래프의 암묵적 지식을 이용하여 정렬, 융합 문제점을 해결한다. 딥 신경망 기반 융합 모델링은 상기 S502에서 제1 의미 이해 결과를 획득하는 과정이고, 단일 모달 이해 결과 기반 융합은 상기 S502에서 제2 의미 이해 결과를 획득하는 과정이다.
본 출원에 따른 멀티 모달 콘텐츠 처리 방법은, 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 기본 의미 이해 결과 및 멀티 모달 지식 그래프를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다. 해당 기술적 해결수단은 지식 그래프 기반 관련 결과, 딥 신경망 기반 융합 모델링 결과 및 단일 모달 이해 결과 기반 융합 방안에 의해 공통으로 멀티 모달 콘텐츠에 대한 의미 이해를 구현하여, 이에 따라 멀티 모달 콘텐츠의 이해 정확도를 더욱 향상시킨다.
예시적으로, 상술한 실시예의 기초 상에서, 도 6은 본 출원의 제3 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 7은 멀티 모달 지식 그래프를 구축하는 프레임 워크의 개략도이다. 도 6에 도시된 바와 같이, 본 실시예에서, 해당 방법은 아래의 단계를 더 포함할 수 있다.
복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득한다(단계 S601).
본 실시예에서, 다양한 웹 사이트 또는 시스템으로부터 멀티 모달 콘텐츠의 멀티 모달 데이터 집합을 획득할 수 있으며, 해당 멀티 모달 데이터 집합은 복수의 멀티 모달 콘텐츠 샘플을 포함한다. 해당 멀티 모달 데이터 집합의 멀티 모달 콘텐츠 샘플은 멀티 모달 지식 그래프를 구축하기 위한 샘플로서 사용될 수 있음을 이해할 수 있다.
예시적으로, 도 7을 참조하면, 멀티 모달 데이터 집합의 멀티 모달 콘텐츠 샘플은 인터넷 리소스, 사용자 로그, 사용자 생성 콘텐츠(user generated content, UGC) 또는 기타 형태의 리소스일 수 있다. 본 출원의 실시예는 멀티 모달 콘텐츠 샘플의 표현 형태에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.
멀티 모달 데이터 집합에 대해 처리하여, 해당 멀티 모달 지식 그래프의 온톨로지를 결정한다(단계 S602).
온톨로지(ontology)는 개념에 대해 모델링하는 규범으로서, 객관적인 세계를 나타내는 추상적인 모델이며, 형식화 방식으로 개념과 그 사이의 관계에 대해 명확한 정의를 제공한다. 온톨로지가 반영하는 지식은 명확하게 정의된 합의(consensus)이며, 업계에서 인정하는 개념 프레임 워크로서, 일반적으로 변하지 않으며, 예컨대 "사람", "이벤트", "사물"이 있다. 이로부터, 온톨로지는 멀티 모달 지식 그래프의 기반으로서, 멀티 모달 지식 그래프의 온톨로지를 결정해야만 다양한 지식을 연관시킬 수 있음을 알 수 있다.
따라서, 도 7을 참조하면, 본 실시예에서, 멀티 모달 데이터 집합 중의 멀티 모달 콘텐츠 샘플에 대해 분석하여 멀티 모달 지식 그래프의 온톨로지를 구축하여, S603에서의 멀티 모달 지식 포인트를 마이닝 및 S604에서의 멀티 모달 지식 포인트 간의 연관 관계 마이닝 프로세스를 수행한다.
멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝한다(단계 S603).
예시적으로, 멀티 모달 데이터 집합 중 멀티 모달 콘텐츠 샘플의 지식 포인트에 대해 마이닝함으로써, 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 결정할 수 있다. 멀티 모달 지식 포인트 샘플은 엔티티, 개념, 이벤트, 동작, 기능, 테마, 장면, 소스, 시각 리소스, 음성 리소스, 텍스트 리소스, 사용자 행위 등의 콘텐츠 중 적어도 하나를 포함할 수 있다. 여기서, 엔티티는 온톨로지, 인스턴스 및 관계의 통합이다. 예를 들어, "사람"은 온톨로지 프레임 중의 일 개념이고, 개념 중에도 예를 들어 "성별"과 같은 관련 속성이 규정되어 있다. 소명(Xiao Ming)은 한 구체적인 사람이므로 인스턴스라고 한다. 따라서, 소명(Xiao Ming)도 성별을 가진다. 소명(Xiao Ming) 및 소명(Xiao Ming)의 온톨로지 개념 "사람"을 나타내는 관련 속성을 엔티티라고 통칭한다(간단히 말하면, 온톨로지 + 인스턴스이다).
기타 멀티 모달 지식 포인트에 대한 해석은 위의 도 1에 도시된 응용 시나리오의 소개를 참조할 수 있으며, 여기서는 중복되는 설명을 생략한다.
지식 그래프 표현 학습을 통해, 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축한다(단계 S604).
예시적으로, 멀티 모달 지식 포인트 샘플 간의 연관 관계는 엔티티 속성 / 관계, 종속 관계, 포함 관계, 패싯 관계, 관련 등의 지식 관계를 포함한다. 지식 그래프는 그래프 조직 형태로서, 의미 연관을 통해 다양한 엔티티를 연관시킬 수 있다. 즉, 복수의 모달 포인트를 연관시켜, 복수의 지식 포인트 간의 연관 관계를 형성한다.
예를 들어, 육아 중 딸꾹질 비디오를 예로 들어 설명하면, 멀티 모달 지식 포인트 간의 관계는 엄마와 아기 사이의 관계, 엄마와 두드림 동작, 두드림과 아기의 등 등을 포함할 수 있다. 본 실시예에서는 멀티 모달 지식 포인트 간의 연관 관계의 구체적인 표현 형태에 대해 한정하지 않음을 이해할 수 있다.
일 가능한 실시형태에서, 도 7을 참조하면, 범용 지식 그래프의 기초 상에서, 표현 학습 방식을 통해 멀티 모달 지식 포인트 간의 연관 관계를 결정할 수 있다.
멀티 모달 지식 포인트 간의 연관 관계와 해당 멀티 모달 지식 그래프의 온톨로지를 기초로, 멀티 모달 지식 그래프를 구축한다(단계 S605).
예시적으로, 도 7을 참조하면, 멀티 모달 지식 그래프를 구축하는 프로세스는 온톨로지 구축, 지식 인식, 지식 추출, 지식 연관, 지식 에지 구축, 지식 융합, 표현 학습, 지식 추리, 반복 제어, 품질 제어, 특징 건설 등 내용 중 하나 이상을 포함할 수 있다. 본 출원의 실시예는 멀티 모달 지식 그래프의 구체적인 처리 프로세스에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.
도 7에 도시된 프레임 워크 다이어그램에서, 멀티 모달 지식 포인트 간의 연관 관계에 대해 정규화 융합, 관계 추리 및 검증을 수행한 후, 온톨로지 구축 및 범용 지식 그래프 스크리닝을 결합하면 멀티 모달 지식 그래프를 얻을 수 있다. 또한, 해당 멀티 모달 지식 그래프는 범용 지식 그래프에 피드백할 수 있다. 즉, 범용 지식 그래프를 지속적으로 개선할 수 있다. 나아가, 반복 제어, 특징 마이닝, 품질 제어 등을 결합하여 해당 멀티 모달 지식 그래프를 지속적으로 업데이트하고 개선할 수 있다.
여기서, 온톨로지 구축은 사람에 있어서, 인물 유형을 결정하는 과정이다. 지식 인식은 멀티 모달 콘텐츠 중 엔티티, 개념, 이벤트, 동작 등의 지식 포인트에 대해 인식하는 과정이다. 지식 추출은 멀티 모달 콘텐츠 중 지식 포인트를 추출하는 과정이다. 지식 연관은 복수의 지식 포인트 간의 연관 관계를 구축하는 것이다. 지식 융합은 동일한 엔티티의 정보를 융합한 후 공통으로 해석하는 과정이다. 표현 학습은, 디스플레이 출력(이해하기 쉬움), 암시적 벡터(기계 컴퓨팅에 편리함) 등과 같은, 지식 포인트에 대한 포현 과정이다. 지식 추리는 기존의 지식 포인트 및 연관 관계를 기초로 새로운 지식을 도출하는 과정이다. 반복 제어는 융합 및 중복 제거 과정이다. 품질 제어는 잘못된 지식을 제거하고, 정확한 지식을 유지하는 과정이다. 특징 건설은 각각의 지식 포인트에 일부 특징 또는 설명을 추가하여 쉽게 사용될 수 있도록 하는 과정이다.
본 출원의 실시예는 멀티 모달 지식 그래프를 구축하는 구체적인 방식과 단계에 대해 한정하지 않으며, 실제 경우에 따라 유연하게 조정할 수 있음을 이해할 수 있다.
본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법은, 멀티 모달 데이터 집합을 획득하고, 멀티 모달 데이터 집합을 처리하여, 해당 멀티 모달 지식 그래프의 온톨로지를 결정하고, 멀티 모달 데이터 집합 중 각 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 멀티 모달 지식 포인트 샘플 간의 연관 관계와 해당 멀티 모달 지식 그래프의 온톨로지를 기초로 멀티 모달 지식 그래프를 구축함으로써, 지식 포인트를 위해 의미 해석을 제공하고, 멀티 모달 콘텐츠의 정확한 의미 이해를 실현하기위한 기반을 마련한다.
상술한 분석에 따르면, 지식 그래프 기반 의미 이해는 이해에 지식 그래프를 융합시켜 멀티 모달 콘텐츠의 의미 이해를 더 효과적으로 실현하고 의미 이해의 정확성을 향상시키는 것을 알 수 있다. 멀티 모달 지식 그래프를 구축하고, 멀티 모달 지식 그래프를 이용하여 이해에 정확한 의미을 부여하고, 멀티 모달 콘텐츠 표현 학습 방식을 통해 지식 증강을 달성함으로써, 멀티 모달 콘텐츠의 정확한 의미 이해 결과를 얻기 위한 기반을 마련한다.
위에서는 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 구체적인 구현에 대해 소개하였다. 아래에서는 본 출원의 방법 실시예를 수행할 수 있는 본 출원의 장치 실시예이다. 본 출원의 장치 실시예에서 개시되지 않은 세부 사항은 본 출원의 방법 실시예를 참조할 수 있다.
도 8은 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 장치의 구조도이다. 해당 장치는 전자 기기에 통합되거나 전자 기기를 통해 구현 될 수 있다. 도 8에 도시된 바와 같이, 본 실시예에서, 해당 멀티 모달 콘텐츠 처리 장치(80)는 수신 모듈(801), 처리 모듈(802) 및 결정 모듈(803)을 포함할 수 있다.
여기서, 수신 모듈(801)은 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다.
해당 처리 모듈(802)은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하도록 구성된다.
해당 결정 모듈(803)은 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.
본 출원의 실시예의 일 가능한 설계에서, 결정 모듈(803)은 구체적으로 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성된다.
여기서, 상기 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함한다.
상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득된다.
상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득된다.
본 출원 실시예의 다른 일 가능한 설계에서, 처리 모듈(802)은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합에 대해 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하도록 구성된다.
본 출원의 실시예의 또 다른 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함한다.
해당 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하도록 구성된다.
본 출원 실시예의 또 다른 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함하되,
해당 처리 모듈(802)은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하도록 구성되고;
상기 출력 모듈은 상기 추천 리소스를 상기 사용자에게 푸시하도록 구성되고;
또는
해당 결정 모듈(803)은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하도록 구성되고;
해당 처리 모듈(802)은 또한 상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하도록 구성된다.
본 출원의 실시예에서 제공하는 장치는 도 2 내지 도 7에 도시된 실시예의 방법을 수행하기 위해 사용될 수 있으며, 그 구현 원리와 기술적 효과는 유사하므로, 여기서는 중복되는 설명을 생략한다.
특별히 설명하면, 상술 장치의 다양한 모듈의 분할은 논리적 기능의 분할일 뿐, 실제 구현에서는 전체 또는 부분적으로 물리적 엔티티로 통합하거나 물리적으로 분리시킬 수 있다. 그리고, 이러한 모듈은 모두 소프트웨어가 처리 요소에 의해 호출되는 형태로 구현될 수 있다. 또한 모두 하드웨어의 형태로 구현될 수도 있다. 또한 일부 모듈은 처리 요소가 소프트웨어를 호출하는 형태로 구현되고, 일부 모듈은 하드웨어 형태로 구현될 수도 있다. 예를 들어, 처리 모듈은 별도로 구비된 처리 요소일 수 있으며, 위에서 언급한 장치의 어느 칩에 통합될 수도 있으며, 또한 위에서 언급한 장치의 메모리에 프로그램 코드 형태로 저장될 수도 있다. 상술한 장치의 어느 처리 요소는 상술한 처리 모듈의 기능을 호출 및 실행할 수 있다. 다른 모듈의 구현도 이와 유사하다. 또한 이러한 모듈은 전체 또는 일부분이 일체로 통합되거나 별도로 구현될 수 있다. 여기에서 설명되는 처리 요소는 신호 처리 능력을 갖춘 집적 회로일 수 있다. 구현 과정에서, 상술한 방법의 각 단계 또는 상술한 모듈 각각은 프로세서 요소 중의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령에 의해 완성될 수 있다.
본 출원의 실시예는 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 판독 가능 저장매체에 저장되며, 전자기기의 적어도 하나의 프로세서가 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 하나의 실시예에서 제공하는 기술적 해결수단을 수행하도록 한다.
또한, 본 출원의 실시예에 따르면, 본 출원은 전가 기기와 판독 가능 저장 매체를 더 제공한다.
도 9는 본 출원의 실시예의 멀티 모달 콘텐츠 처리 방법을 구현하기 위한 전가 기기의 블록도이다. 도 9를 참조하면, 전가 기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 디지털 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 나타내기 위한 것이다. 전자 기기는 다양한 형태의 이동장치, 예컨대, 개인 디지털 단말기, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 더 나타낼 수 있다. 본문에 설명된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 설명된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.
도 9에 도시된 바와 같이, 해당 전자 기기는 하나 또는 복수의 프로세서(901), 메모리(902), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작을 제공한다(예를 들어, 서버 어레이, 일 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 9는 하나의 프로세서(901)를 예로 든다.
메모리(902)는 바로 본 출원에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에 따른 멀티 모달 콘텐츠 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원에 따른 멀티 모달 콘텐츠 처리 방법을 수행하도록 한다.
메모리(902)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법에 대응되는 프로그램 명령/모듈(예를 들면, 도 8에 도시된 수신 모듈(801), 처리 모듈(802)과 결정 모듈(803))을 저장할 수 있다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 멀티 모달 콘텐츠 처리 방법을 구현한다.
메모리(902)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 멀티 모달 콘텐츠 처리 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 한편, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장장치와 같은 비일시적 메모리를 포함할 수 도 있다. 일부 실시예에서, 메모리(902)는 예시적으로 프로세서(901)에 대해 원격으로 설치된 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 멀티 모달 콘텐츠를 처리하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 인스턴스로서 인터넷, 인트라넷, 랜, 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.
멀티 모달 콘텐츠 처리 방법의 전자 기기는 입력장치(903)와 출력장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력장치(903) 및 출력장치(904)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 9에서는 버스를 통해 연결되는 것을 예시하고 있다.
입력장치(903)는 입력되는 숫자 또는 문자 부호 정보를 수신할 수 있고, 멀티 모달 콘텐츠를 처리하는 전자 기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 레버 등의 입력장치를 포함할 수 있다. 출력장치(904)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기에서 설명되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 불리운다)은 프로그래머블 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체”와 "컴퓨터 판독 가능 매체”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 장치(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 설명되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향장치를 통해 입력을 컴퓨터에게 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 설명되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 설명되는 시스템 및 기술의 실시방식과 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매채의 디지털 데이터 통신(예를 들어, 통신망)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신망의 예시로서, 랜(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 통상적으로 통신망을 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.
나아가, 본 출원은 멀티 모달 콘텐츠 처리 방법을 더 제공하며, 상기 방법은, 외부 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;
사전에 구축된 지식 그래프와 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함한다.
본 출원의 실시예에 따른 기술적 해결수단에 따르면, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대해 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하고, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 결합하여 멀티 모달 콘텐츠에 대한 이해를 수행하므로, 정확한 의미 이해 결과를 얻을 수 있고, 멀티 모달 콘텐츠의 정확한 응용을 위한 기반을 마련한다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 기타 순서로 수행될 수도 있으며, 본 출원에 개시된 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본문에서는 여기서 한정하지 않는다.
상술한 구체적인 실시형태는, 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 수요와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 치환을 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 치환과 개선 등은 모두 본 출원의 보호 범위 내에 속한다.

Claims (16)

  1. 사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것인 단계;
    상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하는 단계;
    상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 단계;를 포함하는 것을 특징으로 하는
    멀티 모달 콘텐츠 처리 방법.
  2. 제1항에 있어서,
    상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계는,
    상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계 결정하는 단계;
    상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하는 단계;
    상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 기본 의미 이해 결과는 제1 의미 이해 결과 및 제2 의미 이해 결과 중 적어도 하나를 포함하고;
    상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되고;
    상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 방법은,
    복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하는 단계;
    상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하는 단계;
    상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하는 단계;
    지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하는 단계;
    상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 방법은,
    지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제1항에 있어서, 상기 방법은,
    상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계;
    상기 추천 리소스를 상기 사용자에게 푸시하는 단계;
    또는
    상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;
    상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  7. 수신 모듈, 처리 모듈 및 결정 모듈을 포함하되,
    상기 수신 모듈은 사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하도록 구성되고;
    상기 처리 모듈은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하도록 구성되고;
    상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 것을 특징으로 하는 멀티 모달 콘텐츠 처리 장치.
  8. 제7항에 있어서, 상기 결정 모듈은,
    상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되는 것을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 기본 의미 이해 결과는 제1 의미 이해 결과 및 제2 의미 이해 결과 중 적어도 하나를 포함하고;
    상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되고;
    상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것을 특징으로 하는 장치.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 처리 모듈은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합에 대해 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프 구촉하도록 구성되는 것을 특징으로 하는 장치.
  11. 제7항 내지 제9항 중 어느 한 항에 있어서, 출력 모듈을 더 포함하되,
    상기 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하도록 구성되는 것을 특징으로 하는 장치.
  12. 제7항 내지 제9항 중 어느 한 항에 있어서, 출력 모듈을 더 포함하되,
    상기 처리 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하도록 구성되고;
    상기 출력 모듈은 또한 상기 추천 리소스를 상기 사용자에게 푸시하도록 구성되고;
    또는
    상기 결정 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하도록 구성되고;
    상기 처리 모듈은 또한 상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하도록 구성되는 것을 특징으로 하는 장치.
  13. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자 기기.
  14. 컴퓨터 명령을 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  15. 외부의 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;
    사전에 구축된 지식 그래프와 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정되는 단계;를 포함하는 것을 특징으로 하는 방법.
  16. 프로세서에 의해 실행되어 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품.
KR1020210005681A 2020-01-15 2021-01-15 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체 KR102532152B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010044247.9 2020-01-15
CN202010044247.9A CN111221984B (zh) 2020-01-15 2020-01-15 多模态内容处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210037619A true KR20210037619A (ko) 2021-04-06
KR102532152B1 KR102532152B1 (ko) 2023-05-12

Family

ID=70831856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210005681A KR102532152B1 (ko) 2020-01-15 2021-01-15 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210192142A1 (ko)
EP (1) EP3812926A1 (ko)
JP (1) JP7225273B2 (ko)
KR (1) KR102532152B1 (ko)
CN (1) CN111221984B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742586A (zh) * 2021-08-31 2021-12-03 华中师范大学 一种基于知识图谱嵌入的学习资源推荐方法及系统
WO2024076156A1 (ko) * 2022-10-07 2024-04-11 삼성전자주식회사 멀티미디어 콘텐트 내에서 텍스트와 결합된 이미지를 식별하기 위한 전자 장치 및 그 방법

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11528248B2 (en) * 2020-06-10 2022-12-13 Bank Of America Corporation System for intelligent multi-modal classification in a distributed technical environment
US20220019742A1 (en) * 2020-07-20 2022-01-20 International Business Machines Corporation Situational awareness by fusing multi-modal data with semantic model
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN113849575B (zh) * 2020-12-10 2022-08-09 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
CN112465144B (zh) * 2020-12-11 2023-07-28 北京航空航天大学 基于有限知识的多模态示范意图生成方法及装置
CN112732969A (zh) * 2021-01-14 2021-04-30 珠海格力电器股份有限公司 图像语义分析方法、装置、存储介质及电子设备
CN113032538A (zh) * 2021-03-11 2021-06-25 五邑大学 一种基于知识图谱的话题转移方法、控制器及存储介质
CN113127708A (zh) * 2021-04-20 2021-07-16 科大讯飞股份有限公司 信息交互方法、装置、设备及存储介质
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN113688251B (zh) * 2021-07-27 2024-02-13 广东师大维智信息科技有限公司 一种室内体育赛事安保领域的知识图谱构建方法与系统
CN113779934B (zh) * 2021-08-13 2024-04-26 远光软件股份有限公司 多模态信息提取方法、装置、设备及计算机可读存储介质
CN113722430A (zh) * 2021-08-23 2021-11-30 北京工业大学 面向食品安全的多模态人机交互方法和系统、设备及介质
CN113688220B (zh) * 2021-09-02 2022-05-24 国家电网有限公司客户服务中心 一种基于语义理解的文本机器人对话方法及系统
CN113837910B (zh) * 2021-09-28 2024-04-16 科大讯飞股份有限公司 试题推荐方法、装置、电子设备和存储介质
CN114255427B (zh) * 2021-12-21 2023-04-18 北京百度网讯科技有限公司 视频理解方法、装置、设备以及存储介质
CN114299194B (zh) * 2021-12-23 2023-06-02 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法及装置
CN114167994B (zh) * 2022-02-11 2022-06-28 北京亮亮视野科技有限公司 知识库添加方法、装置、设备及介质
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质
CN114399006B (zh) * 2022-03-24 2022-07-12 山东省计算中心(国家超级计算济南中心) 基于超算的多源异构图数据融合方法及系统
CN114580425B (zh) * 2022-05-06 2022-09-09 阿里巴巴(中国)有限公司 命名实体识别的方法和装置,以及电子设备和存储介质
CN115130435B (zh) * 2022-06-27 2023-08-11 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
TWI811026B (zh) * 2022-07-15 2023-08-01 葉德源 自主數位學習評量系統及方法
CN115422399B (zh) * 2022-07-21 2023-10-31 中国科学院自动化研究所 视频搜索方法、装置、设备和存储介质
CN114925176B (zh) * 2022-07-22 2022-10-11 北京融信数联科技有限公司 一种智能体多模态认知图谱的构建方法、系统和介质
JP2024031042A (ja) * 2022-08-25 2024-03-07 ユニ・チャーム株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN115658935B (zh) * 2022-12-06 2023-05-02 北京红棉小冰科技有限公司 一种个性化评论生成方法及装置
CN115860436B (zh) * 2023-02-21 2023-05-26 齐鲁工业大学(山东省科学院) 一种基于知识图谱的城市热线派单方法及系统
CN117150031A (zh) * 2023-07-24 2023-12-01 青海师范大学 一种面向多模态数据的处理方法及系统
CN117009550B (zh) * 2023-08-09 2024-04-19 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法
CN116934754B (zh) * 2023-09-18 2023-12-01 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN117633328B (zh) * 2024-01-25 2024-04-12 武汉博特智能科技有限公司 基于数据挖掘的新媒体内容监测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118021A (ja) * 2008-11-14 2010-05-27 Yahoo Japan Corp トピックグラフを利用したドキュメント検索サーバ及び方法
KR20140088086A (ko) * 2011-10-06 2014-07-09 톰슨 라이센싱 멀티미디어 컨텐트 아이템에 대한 정보를 제공하기 위한 방법 및 장치
US20180189570A1 (en) * 2016-12-30 2018-07-05 Facebook, Inc. Video Understanding Platform
JP2019074843A (ja) * 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2948159B2 (ja) * 1996-12-06 1999-09-13 株式会社日立製作所 データベース装置
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7146349B2 (en) * 2000-11-06 2006-12-05 International Business Machines Corporation Network for describing multimedia information
JP2002288178A (ja) 2001-03-23 2002-10-04 Toshiba Corp マルチメディア情報収集管理装置およびプログラム
US7986842B2 (en) 2006-11-10 2011-07-26 Fuji Xerox Co., Ltd. Collective media annotation using undirected random field models
US8358856B2 (en) * 2008-06-02 2013-01-22 Eastman Kodak Company Semantic event detection for digital content records
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
CN105550190B (zh) * 2015-06-26 2019-03-29 许昌学院 面向知识图谱的跨媒体检索系统
US11023523B2 (en) * 2015-10-23 2021-06-01 Carnegie Mellon University Video content retrieval system
CN106326440B (zh) * 2016-08-26 2019-11-29 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置
CN107273477A (zh) * 2017-06-09 2017-10-20 北京光年无限科技有限公司 一种用于机器人的人机交互方法及装置
CN107766571B (zh) * 2017-11-08 2021-02-09 北京大学 一种多媒体资源的检索方法和装置
US10782986B2 (en) * 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
CN109033277A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 基于机器学习的类脑系统、方法、设备及存储介质
WO2020023590A1 (en) * 2018-07-24 2020-01-30 Newton Howard Intelligent reasoning framework for user intent extraction
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN110647662B (zh) * 2019-08-03 2022-10-14 电子科技大学 一种基于语义的多模态时空数据关联方法
CN110472107B (zh) * 2019-08-22 2024-01-30 腾讯科技(深圳)有限公司 多模态知识图谱构建方法、装置、服务器以及存储介质
CN110516160B (zh) * 2019-08-30 2022-04-01 中国科学院自动化研究所 基于知识图谱的用户建模方法、序列推荐方法
CN110597992B (zh) * 2019-09-10 2023-08-29 腾讯科技(深圳)有限公司 基于知识图谱的语义推理方法及装置、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118021A (ja) * 2008-11-14 2010-05-27 Yahoo Japan Corp トピックグラフを利用したドキュメント検索サーバ及び方法
KR20140088086A (ko) * 2011-10-06 2014-07-09 톰슨 라이센싱 멀티미디어 컨텐트 아이템에 대한 정보를 제공하기 위한 방법 및 장치
US20180189570A1 (en) * 2016-12-30 2018-07-05 Facebook, Inc. Video Understanding Platform
JP2019074843A (ja) * 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kesorn Kraisaket 외 1명, 'Enhanced Sports Image Annotation and Retrieval Based upon Semantic Analysis of Multimodal Cues',3rd Pacific Rim Symposium on Image and VideoTechnology, 2009.01., pp. 1-12. 1부.* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742586A (zh) * 2021-08-31 2021-12-03 华中师范大学 一种基于知识图谱嵌入的学习资源推荐方法及系统
CN113742586B (zh) * 2021-08-31 2023-10-24 华中师范大学 一种基于知识图谱嵌入的学习资源推荐方法及系统
WO2024076156A1 (ko) * 2022-10-07 2024-04-11 삼성전자주식회사 멀티미디어 콘텐트 내에서 텍스트와 결합된 이미지를 식별하기 위한 전자 장치 및 그 방법

Also Published As

Publication number Publication date
KR102532152B1 (ko) 2023-05-12
CN111221984A (zh) 2020-06-02
CN111221984B (zh) 2024-03-01
EP3812926A1 (en) 2021-04-28
US20210192142A1 (en) 2021-06-24
JP2021082308A (ja) 2021-05-27
JP7225273B2 (ja) 2023-02-20

Similar Documents

Publication Publication Date Title
KR102532152B1 (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
EP3923160A1 (en) Method, apparatus, device and storage medium for training model
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US11200269B2 (en) Method and system for highlighting answer phrases
US11847164B2 (en) Method, electronic device and storage medium for generating information
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
EP3923159A1 (en) Method, apparatus, device and storage medium for matching semantics
EP4006909A1 (en) Method, apparatus and device for quality control and storage medium
KR20210040316A (ko) 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
CN111611468B (zh) 页面交互方法、装置和电子设备
KR20210132578A (ko) 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체
KR20210056961A (ko) 의미 처리 방법, 장치, 전자 기기 및 매체
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
JP2022518645A (ja) 映像配信時効の決定方法及び装置
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
Calderón et al. Distributed supervised sentiment analysis of tweets: Integrating machine learning and streaming analytics for big data challenges in communication and audience research
WO2023142451A1 (zh) 工作流生成方法、装置、电子设备
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
CN115730047A (zh) 一种智能问答方法、设备、装置及存储介质
CN113113017B (zh) 音频的处理方法和装置

Legal Events

Date Code Title Description
G15R Request for early publication
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant