KR20210037619A

KR20210037619A - 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR20210037619A
Application number: KR1020210005681A
Authority: KR
Inventors: 즈판 펑; 하이펑 왕; 커신 런; 용 주; 야줸 뤼; 야?k 뤼
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-01-15
Filing date: 2021-01-15
Publication date: 2021-04-06
Also published as: KR102532152B1; CN111221984A; CN111221984B; EP3812926A1; US20210192142A1; JP2021082308A; JP7225273B2

Abstract

본 출원은 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체를 개시하며, 인공 지능의 기술 분야에 관한 것이다. 구체적인 구현방안에 따르면, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 정확한 의미 이해 결과를 얻을 수 있고, 멀티 모달 콘텐츠의 정확한 응용을 실현하고, 종래기술에서 멀티 모달 콘텐츠에 대한 이해가 정확하지 않은 문제점을 해결한다.

Description

멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체{MULTIMODAL CONTENT PROCESSING METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM}

본 출원은 데이터 처리 기술 분야에 관한 것으로, 특히 인공 지능 기술 중의 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체에 관한 것이다.

그래픽 및 비디오 콘텐츠 리소스는 현재 인터넷의 주요한 리소스 형태로서, 그래픽, 비디오 콘텐츠 등의 다양한 모달리티를 갖는 멀티 모달 콘텐츠에 대한 정확한 이해는 스마트 제품의 중요한 토대이자 핵심적 수요이다.

종래기술에서는 그래픽 및 비디오 콘텐츠 리소스 등의 멀티 모달 콘텐츠의 진정한 의미를 정확하게 이해하기 위하여, 일반적으로 각각 텍스트, 비주얼, 음성 등의 기술을 이용하여 멀티 모달 콘텐츠에 대해 의미 분석을 수행하여, 단일 모달 이해 결과를 획득한 후, 복수의 단일 모달 이해 결과를 융합하여 최종적인 멀티 모달 이해 결과를 획득한다.

그러나, 상술한 방법은 멀티 모달 콘텐츠에 대응되는 물체, 인물 및 문자 등의 지식 포인트를 결정할 수 밖에 없으며, 지식 포인트 간의 관계와 실제로 발생한 이벤트를 명확히 할 수 없고, 의미 이해 결과가 정확하지 않은 문제점이 존재한다.

본 출원의 실시예들에서 제공하는 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체는 기존의 멀티 모달 콘텐츠 처리 방법에서 의미 이해 결과가 정확하지 않은 문제점을 해결하기 위한 것이다.

제1 측면에 따르면, 본 출원은 멀티 모달 콘텐츠 처리 방법을 제공한다. 해당 방법은,

사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것인 단계;

상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하는 단계;

상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 단계;를 포함한다.

본 실시예에서, 멀티 모달 콘텐츠의 멀티 모달 지식 포인트 및 멀티 모달 지식 그래프를 사용하여 멀티 모달 콘텐츠를 이해하므로, 정확한 의미 이해 결과를 획득한다. 멀티 모달 콘텐츠의 정확한 응용을 실현하고, 종래기술에 존재하는 멀티 모달 콘텐츠에 대한 이해가 정확하지 않은 문제점을 해결한다.

제1 측면의 일 가능한 설계에서, 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계는,

상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하는 단계;

상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하는 단계;

상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함한다.

여기서, 상기 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함하고;

상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득된 것이고;

상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과를 융합하여 획득된 것이다.

본 실시예에서, 지식 그래프 기반 연관 결과, 딥 신경망 기반 융합 모델링 결과 및 단일 모달 이해 결과 기반 융합 방안으로 함께 멀티 모달 콘텐츠의 의미 이해를 구현하고, 멀티 모달 콘텐츠의 이해 정확도를 더욱 향상시킨다.

제1 측면의 다른 일 가능한 설계에서, 상기 방법은,

복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하는 단계;

상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하는 단계;

상기 멀티 모달 데이터 집합 중 각 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하는 단계;

지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하는 단계;

상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하는 단계;를 더 포함한다.

본 출원의 기술적 해결수단은, 멀티 모달 지식 그래프를 구축함으로써, 지식 포인트를 위해 의미 해석을 제공하고, 멀티 모달 콘텐츠의 정확한 의미 이해를 실현하기 위한 기반을 마련한다.

제1 측면의 또 다른 일 가능한 설계에서, 상기 방법은,

지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함한다.

제1 측면의 또 다른 일 가능한 설계에서, 상기 방법은,

상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계;

상기 추천 리소스를 상기 사용자에게 푸시하는 단계;

또는,

상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;

상기 텍스트 이해 결과를 기초로 검색 과정을 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하는 단계;를 더 포함한다.

본 실시예의 기술적 해결수단은 리소스의 정확한 추천과 지능적 검색의 정확성을 실현한다.

제2 측면에 따르면, 본 출원은 수신 모듈, 처리 모듈 및 결정 모듈을 포함하는 멀티 모달 콘텐츠 처리 장치를 제공한다.

상기 수신 모듈은 사용자의 콘텐츠 처리 요청을 수신하고, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다.

상기 처리 모듈은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득한다.

상기 결정 모듈은 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.

제2 측면의 일 가능한 설계에서, 상기 결정 모듈은 구체적으로, 상기 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다.

제2 측면의 다른 가능한 설계에서, 상기 처리 모듈은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로 상기 멀티 모달 지식 그래프를 구축한다.

제2 측면의 또 다른 일 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함한다.

상기 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력한다.

상기 처리 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하고;

상기 출력 모듈은 상기 추천 리소스를 상기 사용자에게 푸시하고;

또는,

상기 결정 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하고;

상기 처리 모듈은 또한 상기 텍스트 이해 결과를 기초로 검색 과정을 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하고;

상기 출력 모듈은 상기 멀티 모달 콘텐츠에 대한 검색 결과를 출력한다.

본 출원의 제2 측면에서 제공하는 장치는 제1 측면에서 제공하는 방법을 수행하기 위해 사용될 수 있으며, 그 구현 원리와 기술적 효과는 유사하므로, 여기서는 중복되는 설명을 생략한다.

제3 측면에 따르면, 본 출원은 전자 기기를 제공한다. 해당 전자기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고,

상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면 및 제1 측면의 각각의 가능한 설계에 따른 방법을 실행할 수 있도록 한다.

제4 측면에 따르면, 본 출원은 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면 및 제1 측면의 각각의 가능한 설계에 따른 방법을 수행하도록 한다.

제5 측면에 따르면, 본 출원은 멀티 모달 콘텐츠 처리 방법을 제공한다. 해당 방법은,

외부의 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;

사전에 구축된 지식 그래프와 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함한다.

제6 측면에 따르면, 본 출원은 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 판독 가능 저장매체에 저장되며, 전자기기의 적어도 하나의 프로세서가 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 일 측면 및 제1 측면의 각 가능한 설계에 따른 방안을 수행하도록 한다.

상술한 출원의 일 실시예는 다음과 같은 이점 또는 유리한 효과가 있다. 즉, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은, 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 사용하여 멀티 모달 콘텐츠에 대한 이해를 수행하므로, 멀티 모달 지식 포인트 간의 관계 및 실제로 발생한 이벤트를 명확히 할 수 없는 문제점을 극복하고, 이에 따라 정확한 의미 이해 결과를 획득하고, 멀티 모달 콘텐츠의 정확한 응용을 실현한다.

상술한 형태에 따른 기타 효과는 아래에서 구체적인 실시예와 결합하여 설명된다.

첨부된 도면은 본 해결수단을 더 쉽게 이해할 수 있도록 제공되는 것으로서, 본 출원에 대한 한정은 아니다.
도 1은 본 출원에 따른 멀티 모달 콘텐츠 처리 방법의 일 응용 시나리오를 나타내는 도면이다.
도 2는 본 출원의 제1 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 3은 육아 시의 일 장면을 나타내는 도면이다.
도 4는 본 실시예에 따른 멀티 모달 콘텐츠의 처리를 나타내는 도면이다.
도 5는 본 출원의 제2 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 6은 본 출원의 제3 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다.
도 7은 멀티 모달 지식 그래프를 구축하는 프레임 워크 개략도이다.
도 8은 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 장치의 구조도이다.
도 9는 본 출원의 실시예의 멀티 모달 콘텐츠 처리 방법을 구현하기 위한 전자 기기의 블록도이다.

아래에서는 첨부 도면과 결합하여 본 출원의 예시적인 실시예에 대하여 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들을 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않음을 이해하여야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.

본 출원의 기술적 해결수단을 소개하기 전에, 먼저 본 출원과 관련된 용어에 대해 해석한다.

멀티 모달 콘텐츠:

멀티 모달 콘텐츠는 다양한 모달리티를 갖는 리소스로서, 각종 정보의 출처나 형태는 모두 모달이라고 지칭될 수 있다. 예를 들어, 사람은 촉각, 청각, 시각 및 후각을 갖는다. 정보의 매체로서 음성, 비디오, 텍스트 등이 있다. 다양한 센서로서, 레이더, 적외선 및 가속도계 등이 있다. 상술한 각각의 종류는 일 종류의 모달이라고 할 수 있다. 또한, 모달은 매우 광범위한 정의를 가질 수 있다. 예를 들어, 두 가지 다른 언어도 두 가지 모달으로 간주될 수 있으며, 두 가지 서로 다른 상황에서 수집된 데이터 집합도 두 가지 모달로 간주될 수 있다.

지식 그래프:

지식 그래프는 지식의 구조화 표현 형태로서. 노드와 에지가 그래픽 형태로 구성된다. 지식 그래프의 노드는 지식 포인트라고도 지칭될 수 있으며, 그 나타내는 정보는 엔티티, 개념, 이벤트, 동작, 기능, 테마, 시나리오, 소스, 시각적 리소스, 음성 리소스, 텍스트 리소스, 사용자 행위 등을 포함하지만 이에 제한되지 않는다. 상응하게, 지식 그래프의 에지도 지식 포인트 간의 연관 관계로 지칭될 수 있으며, 그 나타내는 정보는 속성, 종속, 타이밍 및 인과 관계 등을 포함하지만 이에 제한되지 않는다.

여기서, 지식 그래프의 엔티티는 예를 들어 인물, 동물, 식물 등과 같은 객관적인 세계에 존재하는 일부 대상을 해석할 수 있다. 개념은 노동자, 스타, 아기, 엄마와 같은 동일한 속성을 가진 엔티티로 이루어진 조합으로 해석될 수 있으며, 이는 일부 시나리오에서 동작과 동일한 해석을 가질 수 있으며, 테마는 화제로 이해할 수도 있는 바, 예를 들어, 인공 지능, 통신 등이 있다. 시나리오는 노동 장면, 식사 장면, 학습 장면 등과 같은 일상 생활에서의 구체적인 장면 또는 상황을 가리킨다. 소스는 리소스의 출처를 나타는 바, 예를 들어 비디오 리소스는 개인 계정에서 제공되고, 교육 리소스는 교육 기관의 계정에서 제공되는 것 등이 있다. 시각적 리소스는 비디오 파일, 이미지 파일과 같은 다양한 형태의 시각적 파일을 가라킨다. 음성 리소스는 음악 및 통화와 같은 리소스가 될 수 있다. 텍스트 리소스는 문서 등이 될 수 있다.

위의 내용은 지식 그래프의 지식 포인트에 대한 간단한 설명일 뿐이라는 점에 유의할 필요가 있다. 실제 응용에서 지식 그래프의 지식 포인트는 다른 내용도 포함할 수 있으며, 본 출원은 상술한 지식 포인트의 표현 형태에 제한되지 않는 바, 이는 실제 상황에 따라 결정될 수 있다.

현재, 지식 그래프는 인공 지능의 일 핵심적 기술로서, 텍스트 이해, 지능 추천, 지능적 검색 등과 같은 다양한 임무에 널리 사용되고 있다. 여기서, 텍스트 이해의 경우, 주어진 텍스트를 처리하여 복수의 텍스트 조각을 획득하고, 획득한 복수의 텍스트 세그먼트를 지식 그래프 중의 지식 포인트와 연관시킨 다음, 연관 결과를 기초로 텍스트의 의미 이해 결과를 결정하는 것으로 해석할 수 있다. 지능 추천의 경우, 사용자가 보고있는 동영상이나 검색하고 있는 콘텐츠에 대해 의미 이해를 수행하고, 지식 그래프를 결합하여 사용자가 실제로 주목하는 이벤트를 추리하고, 해당 이벤트를 기초로 사용자에게 유사한 콘텐츠를 추천하는 것으로 해석 할 수 있다. 지능적 검색의 경우 텍스트 단어가 적은 시나리오에 적용될 수 있으며, 먼저 사용자의 관심을 갖는 리소스를 처리하고, 지식 그래프를 결합하여 사용자가 실제로 관심을 갖는 이벤트를 추리하고, 텍스트 형태를 기반으로 해당 이벤트를 나타냄으로써, 해당 이벤트의 텍스트로 리소스를 검색할 때 보다 많은 검색 결과를 얻을 수 있다.

아래에서는 도 1을 결합하여 본 출원의 실시예에서 설계된 시스템 구조를 설명한다. 도 1은 본 출원에 따른 멀티 모달 콘텐츠 처리 방법의 일 응용 시나리오의 개략도이다. 도 1에 도시된 바와 같이, 해당 응용 시나리오는 훈련 기기(11), 처리 기기(12) 및 데이터 저장장치(13)를 포함할 수 있다. 예시적으로, 도 1에 도시된 응용 시나리오에서, 훈련 기기(11)는 웹 페이지로부터 지식 그래프를 구축하기 위한 멀티 모달 콘텐츠를 획득하여, 데이터 저장장치(13)에 저장함으로써, 이 후에 멀티 모달 지식 그래프를 구축할 때 직접 사용할 수 있도록 한다. 처리 기기(12)는 외부로부터 입력되는 처리될 멀티 모달 콘텐츠를 수신하고, 해당 멀티 모달 콘텐츠를 처리할 수 있으며, 처리 결과를 데이터 저장장치(13)에 저장할 수 있다.

본 실시예에서, 데이터 저장장치(13)는 지식 그래프를 구축하기 위한 대량의 멀티 모달 콘텐츠를 저장할 수 있으며, 처리 기기(12)의 처리 결과도 저장할 수 있다. 훈련 기기(11)는 데이터 저장장치(15) 중의 지식 그래프를 구축하기 위한 멀티 모달 콘텐츠를 기초로, 지식 그래프 구축 방법의 프로그램 코드를 실행하여, 멀티 모달 지식 그래프를 구축하도록 구성된다. 처리 기기(12)는 데이터 저장장치(13) 중의 처리될 멀티 모달 콘텐츠를 기초로 멀티 모달 콘텐츠 처리 방법의 프로그램 코드를 실행하여, 멀티 모달 콘텐츠의 의미 이해 결과를 획득하도록 구성된다.

해당 멀티 모달 지식 그래프는 일종의 일반 지식 그래프임을 이해할 수 있다. 일반 지식 그래프는 훈련 기기가 획득한 다양한 모달의 콘텐트에 대해 처리하여 구축된 지식 그래프이다. 실제 응용에서, 멀티 모달 지식 그래프는 일반 지식 그래프에 피드백할 수 있으며, 일반 지식 그래프에 대해 선별하여 멀티 모달 지식 그래프를 획득할 수 있다.

특별히 설명하면, 도 1은 본 출원의 실시예에 따른 응용 시나리오의 개략도일 뿐, 도 1에 도시된 기기들 사이의 위치 관계는 아무런 제한도 받지 않는다. 예를 들어, 도 1에서, 데이터 저장장치(13)는 처리 기기(12)에 대해 외부 메모리일 수 있다. 다른 경우에는, 데이터 저장장치(13)가 처리 기기(12)에 구비될 수도 있다. 본 출원의 실시예에서 훈련 기기(11) 및 처리 기기(12)는 동일한 기기 또는 서로 다른 기기일 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.

예시적으로, 아래에서는 훈련 기기(11)와 처리 기기(12)가 동일한 전자 기기인 것을 예로 들어, 본 출원의 기술적 해결수단을 상세하게 설명한다. 본 출원의 실시예는 전자 기기가 서버 또는 단말 기기인지에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.

이하, 구체적인 실시예를 통해 본 출원의 기술적 해결수단을 상세하게 설명한다. 아래의 몇몇 실시예는 서로 결합될 수 있으며, 일부 실시예에서는 동일하거나 유사한 개념 또는 과정에 대한 중복되는 설명을 생략한다.

도 2는 본 출원의 제 1 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 2에 도시된 바와 가팅, 해당 방법은 아래의 단계를 포함할 수 있다.

사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다(단계 S201).

본 출원의 실시예에서, 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여야 할 때, 사용자는 전자 기기로 콘텐츠 처리 요청을 제공할 수 있으며, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠를 포함한다. 상응하게, 전자 기기는 해당 콘텐츠 처리 요청을 수신하여 인식한 후, 콘텐츠 처리 요청 중의 처리될 멀티 모달 콘텐츠를 분석하여, 해당 멀티 모달 콘텐츠에 대응되는 의미 이해 결과를 결정할 수 있다.

사용자는 다양한 방식으로 전자 기기에 콘텐츠 처리 요청을 제공할 수 있다는 것을 이해할 수 있다. 예를 들어, 클릭 조작, 터치 조작, 가압 조작 또는 음성 입력 등의 방식 중 적어도 하나를 통해 전자 기기로 콘텐츠 처리 요청을 제공할 수 있다. 본 출원은 사용자가 콘텐츠 처리 요청을 제공하는 방식에 대해 한정하지 않으며, 실제 응용 시나리오에 따라 결정할 수 있다. 예를 들어, 휴먼-컴퓨터 인터랙션 인터페이스를 구비하는 전자 기기의 경우, 사용자는 해당 휴먼-컴퓨터 인터랙션 인터페이스에서 조작하여 콘텐츠 처리 요청을 제공할 수 있으며, 휴먼-컴퓨터 인터랙션 대화를 구비하는 스마트 기기의 경우, 사용자가 음성 명령을 통해 제공하는 콘텐츠 처리 요청을 획득할 수 있다.

예시적으로, 본 실시예에서, 처리될 멀티 모달 콘텐츠는 영화 클립, 일상 생활 스몰 비디오와 같은 비디오일 수 있고, 신분증 카드 이미지와 같은 텍스트 이미지일 수도 있다. 본 출원의 실시예는 멀티 모달 콘텐츠의 표현 형태에 대해 한정하지 않으며, 실제 경우에 따라 결정할 수 있다.

멀티 모달 콘텐츠에 대해 해석하여, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득한다(단계 S202).

본 실시예에서, 전자 기기는 사용자의 콘텐츠 이해 요청을 수신한 후, 먼저 콘텐츠 처리 요청 중의 멀티 모달 콘텐츠를 결정한 다음, 해당 멀티 모달 콘텐츠에 대해 해석하여 멀티 모달 콘텐츠에 포함된 멀티 모달 지식 포인트를 결정한다.

예시적으로 멀티 모달 콘텐츠에 대한 해석은 주로 시각, 음성, 텍스트와 같은 멀티 모달 콘텐츠가 갖는 복수의 모달을 기반으로 하며, 이러한 모달은 의미 이해의 기본 콘텐츠가 될 수 있다. 본 출원의 실시예는 주로 시각적 분석, 음성 인식 및 텍스트 이해 기술을 사용한다. 예를 들어, 비디오는 서로 다른 차원으로부터 이해할 수 있는 바, 시각적으로는, 얼굴 분석을 통해 비디오에 등장하는 사람들을 확인하고, 광학 문자 인식(optical character recognition, OCR)을 통해 비디오에 등장하는 문자, 동물 및 물체를 확인한다. 음성의 경우, 인물의 음성을 텍스트로 변환한 후, 비디오 자체에 포함되는 텍스트와 결합하여 의미 이해 등을 수행한다.

예를 들어, 도 3은 육아 시의 일 장면을 나타내는 도면이다. 도 3에 도시된 바와 같이, 비디오 클립(텍스트, 시각적 및 음성 정보 포함)을 예로 들면, 해당 장면에서, 해당 멀티 모달 콘텐츠는 육아 시의 일 스몰 비디오이다. 『비디오에서: 한 여성이 아기를 두드리고 있으며; 비디오에 문자 설명은 아기 수유 후 젖을 토하고 딸꾹질을 하게 되는데, 엄마는 이렇게 해야 한다』이 포함되어 있다. 시각적으로 (아기, 엄마, 두드리는 동작)을 이해할 수 있고, 텍스트를 통해 키워드(젖 토출, 아기, 딸꾹질) 등을 이해할 수 있다. 즉, 해당 멀티 모달 컨텐츠에 대응되는 멀티 모달 지식 포인트는 인물 『엄마, 아기』, 동작 『두드림, 등 두드림』 등을 포함할 수 있다.

상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다(단계 S203).

여기서, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 해당 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.

본 실시예에서, 멀티 모달 지식 그래프에 포함된 멀티 모달 지식 포인트와 해당 멀티 모달 지식 포인트 간의 관계는 대량의 멀티 모달 콘텐츠 샘플에 대해 해석하고 실생활에서의 경험 지식을 기초로 해석한 결과에 대해 훈련하여 획득되는 지식 그래프이다.

멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트는 적어도 2 개의 지식 포인트일 수 있으며, 본 실시예에서 멀티 모달 지식 포인트는 해석에 의해 획득되는 복수의 지식 포인트에 대한 총칭임을 이해할 수 있다.

예시적으로, 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트가 결정되면, 먼저 해당 멀티 모달 지식 포인트와 멀티 모달 지식 그래프 간의 연관 관계를 구축한 다음, 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 결합하여, 표현 학습, 지식 연관 및 계산 추리 등의 기술을 통해 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정할 수 있다.

여기서, 지식 연관은 멀티 모달 콘텐츠와 멀티 모달 지식 그래프의 연관 문제점을 해결할 수 있다. 구체적으로 지식 연관 단계는, 주로 지식 인식, 지식 연관 순서 배열 및 의사 결정을 포함한다. 계산 추리는 지식 그래프, 멀티 모달 콘텐츠 및 융합 정보를 결합하여, 멀티 모달 콘텐츠의 숨겨진 정보를 계산하고 추리하는 것으로 이해할 수 있다.

예를 들어, 위의 도 3의 장면을 나타내는 개략도의 경우, 시각적 분석과 텍스트 이해를 통해 인물 『엄마, 아기』, 동작 『두드림, 등 두드림』을 인식할 수 있고, 시각적 분석을 통해 『엄마가 아기의 등을 두드리고 있는 것』을 확인할 수 있다. 이러한 지식 포인트를 멀티 모달 지식 그래프에 관련시킨다. 예를 들어, 아기를 멀티 모달 지식 그래프 중의 아기와 관련시키고, 엄마는 멀티 모달 지식 그래프 중의 엄마, 등 두드림 동작, 젖 토출 등과 관련시킨다. 멀티 모달 지식 그래프 중의 엄마, 아기, 등을 두드리는 동작, 젖 토출 등을 기초로 비디오에서 실제로 발생한 이벤트인 『엄마가 아기의 딸꾹질을 해결 중』(참고: 딸꾹질은 육아 분야의 장면 용어임)을 추리해내고, 이는 바로 해당 비디오의 의미 이해 결과이다.

다른 예를 들어, 만약 멀티 모달 콘텐츠가 일 영화의 일 클립 『동영상에서: 옥상에서 두 사람이 마주 서 있으며, 한 사람이 다른 사람의 이마에 총을 겨누고 있다; 클립에는 "미안, 나는 경찰이다"라는 문자 설명 포함』이면, 이때, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트는 장면 『옥상』, 엔티티 『사람, 총』, 동작 『총 겨눔』 등을 포함할 수 있다. 이때, 멀티 모달 지식 그래프를 더 결합하면, 영화 "무간도(Infernal Affairs)"의 한 클립임을 추리해낼 수 있으며, 해당 영화 클립의 의미 이해 결과를 추리해낼 수 있다.

예시적으로, 도 4는 본 실시예에 따른 멀티 모달 콘텐츠의 처리를 나타내는 도면이다. 도 4에 도시된 바와 같이, 본 실시예에서 멀티 모달 콘텐츠의 처리 프로세서는 오프라인 프로세스와 온라인 프로세스를 포함할 수 있다. 여기서, 오프라인 프로세스는 주로 범용 지식 그래프와 멀티 모달 콘텐츠 샘플을 기초로, 멀티 모달 지식 그래프를 구축한다. 온라인 프로세스는 외부로부터 입력되는 멀티 모달 콘텐츠를 수신하고, 멀티 모달 콘텐츠 해석을 수행하여 멀티 모달 지식 포인트를 획득한 다음, 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 연관시키고, 멀티 모달 콘텐츠 해석 결과와 멀티 모달 지식 그래프를 멀티 모달 융합하고, 멀티 모달 지식 그래프를 결합한 기초 상에서 의미 이해를 수행하여 의미 이해 결과를 출력한다.

상기 분석에 따르면, 본 실시예에서, 텍스트, 시각, 음성 등의 멀티 모달 콘텐츠 및 사전에 구축된 멀티 모달 지식 그래프를 통합적으로 이용함으로써, 멀티 모달 콘텐츠의 의미 이해를 효과적으로 실현하고, 의미 이해가 정확하지 않은 문제점을 방지한다.

또한, 본 출원의 실시예에서, 멀티 모달 콘텐츠의 의미 이해 결과를 결정한 후, 의미 표현 방식을 통해 의미 이해 결과를 표현할 수 있다. 여기서, 의미 표현은 명시적 의미 표현과 암시적 의미 표현을 포함할 수 있다. 명시적 의미 표현은 지식 그래프 기반 의미 표현을 포함하고, 암시적 의미 표현은 멀티 모달 콘텐츠와 명시적 이해 결과의 벡터 표현을 의미한다.

예를 들어, 딸꾹질 이벤트의 경우, 명시적 의미 표현의 출력은, 이벤트는 딸꾹질이고, 엔티티로서 엄마, 아기가 있고, 동작은 등 두드림 동작, 젖 토출 등이 있이며, 암시적 의미 표현은 이해된 이벤트를 벡터 형태로 표현하는 것이다.

예시적으로, 본 실시예는 멀티 모달 표현 학습을 통해 멀티 모달 콘텐츠의 표현 문제점을 해결하며, 주로 딥러닝 네트워크 기반 표현 학습, 그래프 신경망(graph neural network，GNN) 기반 표현 학습, 네트워크 표현 학습 등의 방법을 포함한다.

본 실시예에서의 의미 이해 결과는 정확한 의미 이해 정보를 포함하며, 예컨대, 지능 추천, 지능적 검색 및 지능 대화 시스템 등의 시나리오와 같은 스마트 애플레케이션에 응용될 수 있다.

구체적으로, 본 실시예의 일 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,

지식 그래프의 의미 표현 방법을 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함할 수 있다.

본 실시예에서, 멀티 모달 콘텐츠의 의미 이해 결과를 획득한 후, 직접 출력해야 할 경우, 의미 표현 방법과 같은 명시적 방식으로 출력할 수 있으며, 여기서, 해당 명시적 방식은 사용자가 쉽게 이해할 수 있는 형태이다.

예를 들어, 위 육아 장면의 비다오 클립은 "딸꾹질" 이벤트를 텍스트 형태로 직접 출력하여, 사용자가 해당 비다오의 진정한 의미를 바로 확인할 수 있도록 할 수 있다.

본 실시예의 다른 일 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,

해당 의미 이해 결과의 벡터 표현을 기초로, 유형이 해당 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계; 해당 추천 리소스를 해당 사용자에게 푸시하는 단계;를 더 포함할 수 있다.

예를 들어, 사용자가 어떤 유형의 비디오을 시청할 때에는, 해당 유형의 비디오에 보다 관심을 가짐을 의미하므로, 멀티 모달 콘텐츠에 대응되는 의미 이해 결과를 지능 추천 장면에 적용할 때, 상술한 결정된 의미 이해 결과는 벡터로 표현될 수 있으며, 의미 이해 결과의 벡터 표현을 직접 지능 추천의 입력으로 하여, 네트워크 리소스에서 유형이 해당 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하여 사용자에게 푸시함으로써, 지능 추천의 정확도를 향상시킨다.

예를 들어, 사용자가 시청하는 비디오는 딸꾹질을 정확하게 두드리는 것에 대한 비디오이고, 해당 비디오 재생 완료 후, 전자 기기는 딸꾹질의 벡터 표현을 기초로, 네트워크 리소스로부터 딸꾹질을 정확하게 두드리는 방법을 가르치는 다른 일 비디오를 결정하여, 리소스의 정확한 추천을 달성할 수 있다.

본 실시예의 또 다른 가능한 설계에서, 해당 멀티 모달 콘텐츠 처리 방법은,

해당 의미 이해 결과의 벡터 표현을 기초로, 해당 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;

해당 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 해당 멀티 모달 콘텐츠에 대한 검색 결과를 획득하고, 해당 멀티 모달 콘텐츠에 대한 검색 결과를 출력하는 단계;를 더 포함할 수 있다.

본 실시예에서, 비디오는 일반적으로 문자가 보다 적기 때문에, 사용자가 입력한 비디오를 기초로 콘텐츠 검색을 수행할 때, 획득되는 검색 결과가 보다 적어, 검색 결과가 정확하지 않은 문제점이 발생할 수 있다. 그러나 상술한 결정된 의미 이해 결과를 벡터로 표현하여, 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하고, 해당 텍스트 이해 결과를 지능 검색의 입력으로서 사용함으로써, 보다 많은 검색 결과를 결정할 수 있으므로, 지능 검색의 정확성을 향상시킨다.

본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법은 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 해당 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 결합하여 멀티 모달 콘텐츠에 대해 이해하므로, 정확한 의미 이해 결과를 얻을 수 있으며, 멀티 모달 콘텐츠의 정확한 응용을 위한 기반을 마련한다.

예시적으로, 상술한 도 2에 도시된 실시예의 기초 상에서, 도 5는 본 출원의 제2 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 5에 도시된 바와 같이, 본 실시예에서, 위의 S203은 아래의 단계를 통해 구현될 수 있다.

멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 멀티 모달 지식 포인트 간의 연관 관계를 결정한다(단계 S501).

본 실시예에서, 결정된 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트에 대해, 멀티 모달 지식 그래프를 조회함으로써 해당 멀티 모달 지식 그래프에 대응되는 멀티 모달 지식 포인트 존재 여부를 판단할 수 있다. 만약 존재한다면 둘 간에 연관 관계를 갖는다고 판단하고, 실제 응용과 결합하여, 멀티 모달 지식 포인트 간의 연관 관계를 결정한다.

예시적으로, 멀티 모달 지식 포인트 간의 연관 관계는, 엔티티 속성, 엔티티 관계, 엔티티 종속 관계, 포함(part of） 관계, 패싯 관계（facet Of）, 관련（related Of） 등 중 적어도 하나를 포함한다.

본 출원의 실시예는 멀티 모달 지식 포인트 간의 연관 관계의 구체적인 표현 형태에 대해 한정하지 않으며, 이는 실제 경우에 따라 결정될 수 있다.

멀티 모달 지식 포인트 및 기설정된 의미 이해 방법을 기초로, 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정한다(단계 S502).

예시적으로, 해당 기설정된 의미 이해 방법은 기설정된 딥러닝 방법 및/또는 기설정된 융합 방법을 포함할 수 있으며, 상응하게, 본 실시예에서의 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함할 수 있다.

여기서, 제1 의미 이해 결과는 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되는 것이고; 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것이다.

일 예시로서, 각 모달에서 멀티 모달 콘텐츠에 대한 이해를 수행한 후, 각 모달의 정보 즉, 멀티 모달 지식 포인트를 얻을 수 있으며, 멀티 모달 지식 포인트를 딥 신경망(deep neural networks, DNN)을 통해 융합하여 벡터로 표현하며, 다른 응용 시나리오와 결합하여 제1 의미 이해 결과를 얻을 수 있다.

다른 일 예시로서, 멀티 모달 콘텐츠에 대하여, 먼저 각각 텍스트, 시각, 음성 등의 이해 기술을 사용하여 단일 모달 의미 이해 결과를 얻은 다음, 기설정된 융합 방법을 기초로 모든 단일 모달 의미 이해 결과에 대해 융합하여 제2 의미 이해 결과를 얻는다.

본 출원의 실시예에 따른 제1 의미 이해 결과와 제2 의미 이해 결과는 두 가지 방법으로 획득되는 기본 의미 이해 결과를 구분하기 위한 것일 뿐, 구체적인 관계를 한정하지 않음을 이해할 수 있다.

상술한 멀티 모달 지식 포인트 간의 연관 관계, 기본 의미 이해 결과 및 멀티 모달 지식 그래프를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다(S503).

일 가능한 실시형태에서, 해당 단계는 멀티 모달 융합 과정으로 해석할 수 있으며, 멀티 모달 융합은 주로 멀티 모달 지식 포인트의 통일 모델링을 해결함으로써, 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다.

본 출원은, 다양한 방법을 사용하여, 지식 그래프 기반 관련 정렬 융합, 딥 신경망 기반 융합 모델링, 단일 모달 이해 결과 기반 융합 등의 멀티 모달 융합 문제를 종합적으로 해결한다. 여기서, 지식 그래프 기반 관련 정렬 융합은 멀티 모달 콘텐츠와 지식 그래프의 연관성을 모델링하고, 지식 그래프의 암묵적 지식을 이용하여 정렬, 융합 문제점을 해결한다. 딥 신경망 기반 융합 모델링은 상기 S502에서 제1 의미 이해 결과를 획득하는 과정이고, 단일 모달 이해 결과 기반 융합은 상기 S502에서 제2 의미 이해 결과를 획득하는 과정이다.

본 출원에 따른 멀티 모달 콘텐츠 처리 방법은, 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 기초로, 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 기본 의미 이해 결과 및 멀티 모달 지식 그래프를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정한다. 해당 기술적 해결수단은 지식 그래프 기반 관련 결과, 딥 신경망 기반 융합 모델링 결과 및 단일 모달 이해 결과 기반 융합 방안에 의해 공통으로 멀티 모달 콘텐츠에 대한 의미 이해를 구현하여, 이에 따라 멀티 모달 콘텐츠의 이해 정확도를 더욱 향상시킨다.

예시적으로, 상술한 실시예의 기초 상에서, 도 6은 본 출원의 제3 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 흐름도이다. 도 7은 멀티 모달 지식 그래프를 구축하는 프레임 워크의 개략도이다. 도 6에 도시된 바와 같이, 본 실시예에서, 해당 방법은 아래의 단계를 더 포함할 수 있다.

복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득한다(단계 S601).

본 실시예에서, 다양한 웹 사이트 또는 시스템으로부터 멀티 모달 콘텐츠의 멀티 모달 데이터 집합을 획득할 수 있으며, 해당 멀티 모달 데이터 집합은 복수의 멀티 모달 콘텐츠 샘플을 포함한다. 해당 멀티 모달 데이터 집합의 멀티 모달 콘텐츠 샘플은 멀티 모달 지식 그래프를 구축하기 위한 샘플로서 사용될 수 있음을 이해할 수 있다.

예시적으로, 도 7을 참조하면, 멀티 모달 데이터 집합의 멀티 모달 콘텐츠 샘플은 인터넷 리소스, 사용자 로그, 사용자 생성 콘텐츠(user generated content, UGC) 또는 기타 형태의 리소스일 수 있다. 본 출원의 실시예는 멀티 모달 콘텐츠 샘플의 표현 형태에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.

멀티 모달 데이터 집합에 대해 처리하여, 해당 멀티 모달 지식 그래프의 온톨로지를 결정한다(단계 S602).

온톨로지（ontology）는 개념에 대해 모델링하는 규범으로서, 객관적인 세계를 나타내는 추상적인 모델이며, 형식화 방식으로 개념과 그 사이의 관계에 대해 명확한 정의를 제공한다. 온톨로지가 반영하는 지식은 명확하게 정의된 합의(consensus)이며, 업계에서 인정하는 개념 프레임 워크로서, 일반적으로 변하지 않으며, 예컨대 "사람", "이벤트", "사물"이 있다. 이로부터, 온톨로지는 멀티 모달 지식 그래프의 기반으로서, 멀티 모달 지식 그래프의 온톨로지를 결정해야만 다양한 지식을 연관시킬 수 있음을 알 수 있다.

따라서, 도 7을 참조하면, 본 실시예에서, 멀티 모달 데이터 집합 중의 멀티 모달 콘텐츠 샘플에 대해 분석하여 멀티 모달 지식 그래프의 온톨로지를 구축하여, S603에서의 멀티 모달 지식 포인트를 마이닝 및 S604에서의 멀티 모달 지식 포인트 간의 연관 관계 마이닝 프로세스를 수행한다.

멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝한다(단계 S603).

예시적으로, 멀티 모달 데이터 집합 중 멀티 모달 콘텐츠 샘플의 지식 포인트에 대해 마이닝함으로써, 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 결정할 수 있다. 멀티 모달 지식 포인트 샘플은 엔티티, 개념, 이벤트, 동작, 기능, 테마, 장면, 소스, 시각 리소스, 음성 리소스, 텍스트 리소스, 사용자 행위 등의 콘텐츠 중 적어도 하나를 포함할 수 있다. 여기서, 엔티티는 온톨로지, 인스턴스 및 관계의 통합이다. 예를 들어, "사람"은 온톨로지 프레임 중의 일 개념이고, 개념 중에도 예를 들어 "성별"과 같은 관련 속성이 규정되어 있다. 소명(Xiao Ming)은 한 구체적인 사람이므로 인스턴스라고 한다. 따라서, 소명(Xiao Ming)도 성별을 가진다. 소명(Xiao Ming) 및 소명(Xiao Ming)의 온톨로지 개념 "사람"을 나타내는 관련 속성을 엔티티라고 통칭한다(간단히 말하면, 온톨로지 + 인스턴스이다).

기타 멀티 모달 지식 포인트에 대한 해석은 위의 도 1에 도시된 응용 시나리오의 소개를 참조할 수 있으며, 여기서는 중복되는 설명을 생략한다.

지식 그래프 표현 학습을 통해, 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축한다(단계 S604).

예시적으로, 멀티 모달 지식 포인트 샘플 간의 연관 관계는 엔티티 속성 / 관계, 종속 관계, 포함 관계, 패싯 관계, 관련 등의 지식 관계를 포함한다. 지식 그래프는 그래프 조직 형태로서, 의미 연관을 통해 다양한 엔티티를 연관시킬 수 있다. 즉, 복수의 모달 포인트를 연관시켜, 복수의 지식 포인트 간의 연관 관계를 형성한다.

예를 들어, 육아 중 딸꾹질 비디오를 예로 들어 설명하면, 멀티 모달 지식 포인트 간의 관계는 엄마와 아기 사이의 관계, 엄마와 두드림 동작, 두드림과 아기의 등 등을 포함할 수 있다. 본 실시예에서는 멀티 모달 지식 포인트 간의 연관 관계의 구체적인 표현 형태에 대해 한정하지 않음을 이해할 수 있다.

일 가능한 실시형태에서, 도 7을 참조하면, 범용 지식 그래프의 기초 상에서, 표현 학습 방식을 통해 멀티 모달 지식 포인트 간의 연관 관계를 결정할 수 있다.

멀티 모달 지식 포인트 간의 연관 관계와 해당 멀티 모달 지식 그래프의 온톨로지를 기초로, 멀티 모달 지식 그래프를 구축한다(단계 S605).

예시적으로, 도 7을 참조하면, 멀티 모달 지식 그래프를 구축하는 프로세스는 온톨로지 구축, 지식 인식, 지식 추출, 지식 연관, 지식 에지 구축, 지식 융합, 표현 학습, 지식 추리, 반복 제어, 품질 제어, 특징 건설 등 내용 중 하나 이상을 포함할 수 있다. 본 출원의 실시예는 멀티 모달 지식 그래프의 구체적인 처리 프로세스에 대해 한정하지 않으며, 실제 경우에 따라 결정될 수 있다.

도 7에 도시된 프레임 워크 다이어그램에서, 멀티 모달 지식 포인트 간의 연관 관계에 대해 정규화 융합, 관계 추리 및 검증을 수행한 후, 온톨로지 구축 및 범용 지식 그래프 스크리닝을 결합하면 멀티 모달 지식 그래프를 얻을 수 있다. 또한, 해당 멀티 모달 지식 그래프는 범용 지식 그래프에 피드백할 수 있다. 즉, 범용 지식 그래프를 지속적으로 개선할 수 있다. 나아가, 반복 제어, 특징 마이닝, 품질 제어 등을 결합하여 해당 멀티 모달 지식 그래프를 지속적으로 업데이트하고 개선할 수 있다.

여기서, 온톨로지 구축은 사람에 있어서, 인물 유형을 결정하는 과정이다. 지식 인식은 멀티 모달 콘텐츠 중 엔티티, 개념, 이벤트, 동작 등의 지식 포인트에 대해 인식하는 과정이다. 지식 추출은 멀티 모달 콘텐츠 중 지식 포인트를 추출하는 과정이다. 지식 연관은 복수의 지식 포인트 간의 연관 관계를 구축하는 것이다. 지식 융합은 동일한 엔티티의 정보를 융합한 후 공통으로 해석하는 과정이다. 표현 학습은, 디스플레이 출력(이해하기 쉬움), 암시적 벡터(기계 컴퓨팅에 편리함) 등과 같은, 지식 포인트에 대한 포현 과정이다. 지식 추리는 기존의 지식 포인트 및 연관 관계를 기초로 새로운 지식을 도출하는 과정이다. 반복 제어는 융합 및 중복 제거 과정이다. 품질 제어는 잘못된 지식을 제거하고, 정확한 지식을 유지하는 과정이다. 특징 건설은 각각의 지식 포인트에 일부 특징 또는 설명을 추가하여 쉽게 사용될 수 있도록 하는 과정이다.

본 출원의 실시예는 멀티 모달 지식 그래프를 구축하는 구체적인 방식과 단계에 대해 한정하지 않으며, 실제 경우에 따라 유연하게 조정할 수 있음을 이해할 수 있다.

본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법은, 멀티 모달 데이터 집합을 획득하고, 멀티 모달 데이터 집합을 처리하여, 해당 멀티 모달 지식 그래프의 온톨로지를 결정하고, 멀티 모달 데이터 집합 중 각 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 멀티 모달 지식 포인트 샘플 간의 연관 관계와 해당 멀티 모달 지식 그래프의 온톨로지를 기초로 멀티 모달 지식 그래프를 구축함으로써, 지식 포인트를 위해 의미 해석을 제공하고, 멀티 모달 콘텐츠의 정확한 의미 이해를 실현하기위한 기반을 마련한다.

상술한 분석에 따르면, 지식 그래프 기반 의미 이해는 이해에 지식 그래프를 융합시켜 멀티 모달 콘텐츠의 의미 이해를 더 효과적으로 실현하고 의미 이해의 정확성을 향상시키는 것을 알 수 있다. 멀티 모달 지식 그래프를 구축하고, 멀티 모달 지식 그래프를 이용하여 이해에 정확한 의미을 부여하고, 멀티 모달 콘텐츠 표현 학습 방식을 통해 지식 증강을 달성함으로써, 멀티 모달 콘텐츠의 정확한 의미 이해 결과를 얻기 위한 기반을 마련한다.

위에서는 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법의 구체적인 구현에 대해 소개하였다. 아래에서는 본 출원의 방법 실시예를 수행할 수 있는 본 출원의 장치 실시예이다. 본 출원의 장치 실시예에서 개시되지 않은 세부 사항은 본 출원의 방법 실시예를 참조할 수 있다.

도 8은 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 장치의 구조도이다. 해당 장치는 전자 기기에 통합되거나 전자 기기를 통해 구현 될 수 있다. 도 8에 도시된 바와 같이, 본 실시예에서, 해당 멀티 모달 콘텐츠 처리 장치(80)는 수신 모듈(801), 처리 모듈(802) 및 결정 모듈(803)을 포함할 수 있다.

여기서, 수신 모듈(801)은 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것이다.

해당 처리 모듈(802)은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하도록 구성된다.

해당 결정 모듈(803)은 상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함한다.

본 출원의 실시예의 일 가능한 설계에서, 결정 모듈(803)은 구체적으로 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성된다.

여기서, 상기 기본 의미 이해 결과는 제1 의미 이해 결과 및/또는 제2 의미 이해 결과를 포함한다.

상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득된다.

상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득된다.

본 출원 실시예의 다른 일 가능한 설계에서, 처리 모듈(802)은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합에 대해 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하도록 구성된다.

본 출원의 실시예의 또 다른 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함한다.

해당 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하도록 구성된다.

본 출원 실시예의 또 다른 가능한 설계에서, 상기 장치는 출력 모듈을 더 포함하되,

해당 처리 모듈(802)은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하도록 구성되고;

상기 출력 모듈은 상기 추천 리소스를 상기 사용자에게 푸시하도록 구성되고;

또는

해당 결정 모듈(803)은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하도록 구성되고;

해당 처리 모듈(802)은 또한 상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하도록 구성된다.

본 출원의 실시예에서 제공하는 장치는 도 2 내지 도 7에 도시된 실시예의 방법을 수행하기 위해 사용될 수 있으며, 그 구현 원리와 기술적 효과는 유사하므로, 여기서는 중복되는 설명을 생략한다.

특별히 설명하면, 상술 장치의 다양한 모듈의 분할은 논리적 기능의 분할일 뿐, 실제 구현에서는 전체 또는 부분적으로 물리적 엔티티로 통합하거나 물리적으로 분리시킬 수 있다. 그리고, 이러한 모듈은 모두 소프트웨어가 처리 요소에 의해 호출되는 형태로 구현될 수 있다. 또한 모두 하드웨어의 형태로 구현될 수도 있다. 또한 일부 모듈은 처리 요소가 소프트웨어를 호출하는 형태로 구현되고, 일부 모듈은 하드웨어 형태로 구현될 수도 있다. 예를 들어, 처리 모듈은 별도로 구비된 처리 요소일 수 있으며, 위에서 언급한 장치의 어느 칩에 통합될 수도 있으며, 또한 위에서 언급한 장치의 메모리에 프로그램 코드 형태로 저장될 수도 있다. 상술한 장치의 어느 처리 요소는 상술한 처리 모듈의 기능을 호출 및 실행할 수 있다. 다른 모듈의 구현도 이와 유사하다. 또한 이러한 모듈은 전체 또는 일부분이 일체로 통합되거나 별도로 구현될 수 있다. 여기에서 설명되는 처리 요소는 신호 처리 능력을 갖춘 집적 회로일 수 있다. 구현 과정에서, 상술한 방법의 각 단계 또는 상술한 모듈 각각은 프로세서 요소 중의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령에 의해 완성될 수 있다.

본 출원의 실시예는 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 판독 가능 저장매체에 저장되며, 전자기기의 적어도 하나의 프로세서가 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 하나의 실시예에서 제공하는 기술적 해결수단을 수행하도록 한다.

또한, 본 출원의 실시예에 따르면, 본 출원은 전가 기기와 판독 가능 저장 매체를 더 제공한다.

도 9는 본 출원의 실시예의 멀티 모달 콘텐츠 처리 방법을 구현하기 위한 전가 기기의 블록도이다. 도 9를 참조하면, 전가 기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 디지털 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 나타내기 위한 것이다. 전자 기기는 다양한 형태의 이동장치, 예컨대, 개인 디지털 단말기, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 더 나타낼 수 있다. 본문에 설명된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 설명된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.

도 9에 도시된 바와 같이, 해당 전자 기기는 하나 또는 복수의 프로세서(901), 메모리(902), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작을 제공한다(예를 들어, 서버 어레이, 일 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 9는 하나의 프로세서(901)를 예로 든다.

메모리(902)는 바로 본 출원에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에 따른 멀티 모달 콘텐츠 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원에 따른 멀티 모달 콘텐츠 처리 방법을 수행하도록 한다.

메모리(902)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 멀티 모달 콘텐츠 처리 방법에 대응되는 프로그램 명령/모듈(예를 들면, 도 8에 도시된 수신 모듈(801), 처리 모듈(802)과 결정 모듈(803))을 저장할 수 있다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 멀티 모달 콘텐츠 처리 방법을 구현한다.

메모리(902)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 멀티 모달 콘텐츠 처리 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 한편, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장장치와 같은 비일시적 메모리를 포함할 수 도 있다. 일부 실시예에서, 메모리(902)는 예시적으로 프로세서(901)에 대해 원격으로 설치된 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 멀티 모달 콘텐츠를 처리하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 인스턴스로서 인터넷, 인트라넷, 랜, 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.

멀티 모달 콘텐츠 처리 방법의 전자 기기는 입력장치(903)와 출력장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력장치(903) 및 출력장치(904)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 9에서는 버스를 통해 연결되는 것을 예시하고 있다.

입력장치(903)는 입력되는 숫자 또는 문자 부호 정보를 수신할 수 있고, 멀티 모달 콘텐츠를 처리하는 전자 기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 레버 등의 입력장치를 포함할 수 있다. 출력장치(904)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

여기에서 설명되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 불리운다)은 프로그래머블 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체”와 "컴퓨터 판독 가능 매체”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 장치(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 설명되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향장치를 통해 입력을 컴퓨터에게 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.

여기에 설명되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 설명되는 시스템 및 기술의 실시방식과 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매채의 디지털 데이터 통신(예를 들어, 통신망)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신망의 예시로서, 랜(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 통상적으로 통신망을 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.

나아가, 본 출원은 멀티 모달 콘텐츠 처리 방법을 더 제공하며, 상기 방법은, 외부 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;

본 출원의 실시예에 따른 기술적 해결수단에 따르면, 사용자의 콘텐츠 처리 요청을 수신하되, 해당 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대해 의미 이해를 요청하기 위한 것이고, 멀티 모달 콘텐츠에 대해 해석하여, 해당 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하고, 해당 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 멀티 모달 콘텐츠를 기초로, 해당 멀티 모달 콘텐츠의 의미 이해 결과를 결정하고, 해당 멀티 모달 지식 그래프는 멀티 모달 지식 포인트와 멀티 모달 지식 포인트 간의 연관 관계를 포함한다. 해당 기술적 해결수단은 멀티 모달 콘텐츠의 멀티 모달 지식 포인트와 멀티 모달 지식 그래프를 결합하여 멀티 모달 콘텐츠에 대한 이해를 수행하므로, 정확한 의미 이해 결과를 얻을 수 있고, 멀티 모달 콘텐츠의 정확한 응용을 위한 기반을 마련한다.

상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 기타 순서로 수행될 수도 있으며, 본 출원에 개시된 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본문에서는 여기서 한정하지 않는다.

상술한 구체적인 실시형태는, 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 수요와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 치환을 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 치환과 개선 등은 모두 본 출원의 보호 범위 내에 속한다.

Claims

사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하기 위한 것인 단계;
상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하는 단계;
상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하되, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 단계;를 포함하는 것을 특징으로 하는
멀티 모달 콘텐츠 처리 방법.
제1항에 있어서,
상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계는,
상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계 결정하는 단계;
상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하는 단계;
상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하는 단계;를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 기본 의미 이해 결과는 제1 의미 이해 결과 및 제2 의미 이해 결과 중 적어도 하나를 포함하고;
상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되고;
상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 방법은,
복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하는 단계;
상기 멀티 모달 데이터 집합을 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하는 단계;
상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하는 단계;
지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하는 단계;
상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프를 구축하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 방법은,
지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 방법은,
상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하는 단계;
상기 추천 리소스를 상기 사용자에게 푸시하는 단계;
또는
상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하는 단계;
상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
수신 모듈, 처리 모듈 및 결정 모듈을 포함하되,
상기 수신 모듈은 사용자의 콘텐츠 처리 요청을 수신하되, 상기 콘텐츠 처리 요청은 처리될 멀티 모달 콘텐츠에 대한 의미 이해를 요청하도록 구성되고;
상기 처리 모듈은 상기 멀티 모달 콘텐츠에 대해 해석하여, 상기 멀티 모달 콘텐츠에 대응되는 멀티 모달 지식 포인트를 획득하도록 구성되고;
상기 멀티 모달 지식 포인트, 사전에 구축된 멀티 모달 지식 그래프 및 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되고, 상기 멀티 모달 지식 그래프는 상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 포인트 간의 연관 관계를 포함하는 것을 특징으로 하는 멀티 모달 콘텐츠 처리 장치.
제7항에 있어서, 상기 결정 모듈은,
상기 멀티 모달 지식 포인트와 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 지식 포인트 간의 연관 관계를 결정하고, 상기 멀티 모달 지식 포인트와 기설정된 의미 이해 방법을 기초로, 상기 멀티 모달 콘텐츠의 기본 의미 이해 결과를 결정하고, 상기 멀티 모달 지식 포인트 간의 연관 관계, 상기 기본 의미 이해 결과 및 상기 멀티 모달 지식 그래프를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정하도록 구성되는 것을 특징으로 하는 장치.
제8항에 있어서,
상기 기본 의미 이해 결과는 제1 의미 이해 결과 및 제2 의미 이해 결과 중 적어도 하나를 포함하고;
상기 제1 의미 이해 결과는 상기 멀티 모달 지식 포인트 및 기설정된 딥러닝 방법을 기초로 상기 멀티 모달 콘텐츠에 대해 의미 이해를 수행하여 획득되고;
상기 제2 의미 이해 결과는 기설정된 융합 방법을 기초로 상기 멀티 모달 지식 포인트에 대응되는 복수의 단일 모달 의미 이해 결과에 대해 융합하여 획득되는 것을 특징으로 하는 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 처리 모듈은 또한 복수의 멀티 모달 콘텐츠 샘플을 포함하는 멀티 모달 데이터 집합을 획득하고, 상기 멀티 모달 데이터 집합에 대해 처리하여, 상기 멀티 모달 지식 그래프의 온톨로지를 결정하고, 상기 멀티 모달 데이터 집합 중 각각의 멀티 모달 콘텐츠 샘플의 멀티 모달 지식 포인트 샘플을 마이닝하고, 지식 그래프 표현 학습을 통해, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계를 구축하고, 상기 멀티 모달 지식 포인트 샘플 간의 연관 관계와 상기 멀티 모달 지식 그래프의 온톨로지를 기초로, 상기 멀티 모달 지식 그래프 구촉하도록 구성되는 것을 특징으로 하는 장치.
제7항 내지 제9항 중 어느 한 항에 있어서, 출력 모듈을 더 포함하되,
상기 출력 모듈은 지식 그래프의 의미 표현 방법을 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 출력하도록 구성되는 것을 특징으로 하는 장치.
제7항 내지 제9항 중 어느 한 항에 있어서, 출력 모듈을 더 포함하되,
상기 처리 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 유형이 상기 멀티 모달 콘텐츠와 일치되는 추천 리소스를 획득하도록 구성되고;
상기 출력 모듈은 또한 상기 추천 리소스를 상기 사용자에게 푸시하도록 구성되고;
또는
상기 결정 모듈은 또한 상기 의미 이해 결과의 벡터 표현을 기초로, 상기 멀티 모달 콘텐츠의 텍스트 이해 결과를 결정하도록 구성되고;
상기 처리 모듈은 또한 상기 텍스트 이해 결과를 기초로 검색 프로세스를 수행하여, 상기 멀티 모달 콘텐츠에 대한 검색 결과를 획득하도록 구성되는 것을 특징으로 하는 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고,
상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 명령을 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
외부의 콘텐츠 처리 요청에 응답하여, 처리될 멀티 모달 콘텐츠를 결정하는 단계;
사전에 구축된 지식 그래프와 상기 멀티 모달 콘텐츠를 기초로, 상기 멀티 모달 콘텐츠의 의미 이해 결과를 결정되는 단계;를 포함하는 것을 특징으로 하는 방법.
프로세서에 의해 실행되어 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품.