KR102455616B1

KR102455616B1 - 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR102455616B1
Application number: KR1020210017976A
Authority: KR
Inventors: 치 왕; 즈판 펑; 즈제 리우; 춘광 차이; 용 주
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-02-14
Filing date: 2021-02-09
Publication date: 2022-10-17
Also published as: KR20210104571A; CN111259215B; US20210256051A1; US11995117B2; JP2021128774A; JP7142737B2; EP3866026A1; CN111259215A

Abstract

본 발명의 실시예는 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체에 관한 것으로, 지식 그래프 분야에 관한 것이다. 방법은, 대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하고, 텍스트 정보와 엔티티 집합을 기반으로 대상의 텍스트 특징을 추출하는 단계; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로 대상의 주제 분류를 결정하는 단계; 를 포함한다. 본 발명의 실시예는 멀티 모달리티 정보를 기반으로 하는 대상 주제 분류 과정에서, 지식 베이스를 기반으로 하는 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우, 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있고, 더 정확한 주제 분류 결과를 획득한다.

Description

멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체{THEME CLASSIFICATION METHOD BASED ON MULTIMODALITY, DEVICE, APPARATUS, AND STORAGE MEDIUM}

본 발명은 총체적으로 컴퓨터 분야에 관한 것이고, 더 구체적으로 지식 그래프 분야에 관한 것이다.

모바일 인터넷의 발전에 따라, 네트워크 자원(예를 들면, 비디오, 음성, 이미지 등)이 점점 유행되고 있다. 예를 들면, 비디오는 시간의 길고 짧음에 따라, 긴 비디오, 짧은 비디오 및 작은 비디오 등으로 나눈다. 긴 비디오는 시간이 비교적 길고, 주로 영화 및TV 프로그램으로 된 비디오이며, 통상적으로 전문 영화사에서 촬영한다. 짧은 비디오는 시간이 비교적 짧고, 소재가 더 풍부한 비디오이며, 통상적으로 영화사의 전문 또는 세미프로 팀에서 촬영하는 것이 아니다. 작은 비디오는 시간이 통상적으로 1분 내(예를 들면, 15초)에 있고, 주로 개인 사용자가 제작하며, 통상적으로 사용자 일상 생활과 관련되는 비디오이다.

대형 멀티미디어 데이터 베이스(예를 들면, 비디오)를 구비한 조직에게 있어서, 통상적으로 비디오에 대해 주제 분류를 해야 한다. 주제 분류는 사용자가 더 용이하게 필요한 내용을 검색할 수 있도록 하는 동시에, 비디오 배포 및 사용자 맞춤 추천도 편리해졌다. 통상적으로, 비디오의 타이틀 및 텍스트 설명을 기반으로 비디오를 분류할 수 있고, 비디오의 구체적 내용을 기반으로 비디오를 분류할 수도 있다.

본 발명의 예시적인 실시예에 따르면, 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체를 제공한다.

본 발명의 제1 측면은 멀티 모달리티를 기반으로 하는 주제 분류 방법을 제공하고, 당해 방법은, 대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하는 단계; 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하는 단계; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하는 단계 - 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출됨 - ; 를 포함한다.

본 발명이 제2 측면은 멀티 모달리티를 기반으로 하는 주제 분류 장치를 제공하고, 당해 장치는, 대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성된 멀티 모달리티 정보 획득 모듈 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된 엔티티 추출 모듈; 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하도록 구성된 주제 분류 결정 모듈 - 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출됨 - ; 을 포함한다.

본 발명의 제3 측면은 전자 기기를 제공하고, 당해 전자 기기는, 하나 또는 복수의 프로세서 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함한다. 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 수행되어, 전자 기기가 본 발명의 실시예의 방법 또는 과정을 구현하도록 한다.

본 발명의 제4 측면은 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 매체를 제공하고, 당해 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.

본 발명의 제5 측면은 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.

이해해야할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.

도면과 결합하여 이하의 상세한 설명을 참조하면, 본 발명의 각 실시예의 상기 또는 기타 특징, 장점 및 측면은 더 뚜렷해진다. 도면에서 동일 또는 유사한 도면 부호는 동일 또는 유사한 요소를 표시한다.
도1은 본 발명의 실시예에 따른 대상의 주제를 결정하기 위한 예시 환경을 나타낸다.
도2는 본 발명의 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 방법의 흐름도를 나타낸다.
도3은 본 발명의 실시예에 따른 비디오의 텍스트 정보를 획득하기 위한과정의 개략도를 나타낸다.
도4는 본 발명의 실시예에 따른 비디오의 다단계 주제 분류 결과를 결정하기 위한 과정의 개략도를 나타낸다.
도5는 본 발명의 실시예에 따른 핵심 엔티티 및 그에 대응하는 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하기 위한 개략도를 나타낸다.
도6은 본 발명의 실시예에 따른 엔티티 벡터 생성 모듈을 훈련하기 위한 개략도를 나타낸다.
도7은 본 발명의 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 장치의 블록도를 나타낸다.
도8은 본 발명의 복수의 실시예를 실시할 수 있는 전자 기기의 블록도를 나타낸다.

이하, 도면을 참조하여 본 발명의 실시예를 더 상세하게 설명한다. 도면에는 본 발명의 일부 실시예를 나타냈지만, 이해해야할 것은, 본 발명은 각 형식을 통해 구현될 수 있고, 실시예에 한정된다고 해석해서는 안되며, 반대로, 이 실시예를 제공하는 것은 본 발명을 더 투철 및 완정하게 이해하기 위한 것이다. 이해해야할 것은, 본 발명의 도면 및 실시예는 예시적인 것일 뿐, 본 발명의 보호 범위를 한정하기 위한것이 아니다.

본 발명의 실시예의 설명에서 전문 용어 "포함"및 유사한 용어는 개방성 포함으로 이해해야 한다. 즉, "포함하나 한정되지 않는다". 전문 용어 "기반으로"는 "적어도 부분적으로 기반으로"로 이해해야 한다. "일 실시예" 또는 "당해 실시예"는 "적어도 하나의 실시예"로 이해해야 한다. 하기 문장에는 기타 명확하고 내포된 정의를 포함할 수 있다.

본 발명의 일부 실시예는 비디오를 대상으로 하는 예시로, 본 발명의 멀티 모달리티를 기반으로 하는 주제 분류 방법를 설명한다. 그러나, 음성, 이미지 등 대상도 본 발명의 주제 분류 방법과 결합하여 사용할 수 있다.

예를 들면, 관리, 검색 또는 비디오 추천을 용이하게 하기 위해, 통상적으로 비디오를 분류할 필요가 있다. 전통적인 비디오 분류 방법은 주로 하기의 두가지 방법이 있다. 한가지는 인공 주석 방식이다. 그러나, 인공 주석 방식은 원가가 높을 뿐만 아니라 시간이 비교적 많이 걸리므로 오류가 발생하기 쉽고 정기 정비가 필요하고 대규모로 실시할 수 없다. 다른 하나는 기계 학습을 통한 방식이다. 예를 들면, 기계 합습 모델은 비디오의 텍스트 정보 또는 시각 정보를 기반으로 분류하나, 모노 모달리티의 정보는 통상적으로 정보량이 비교적 적으므로, 분류 결과가 정확하지 않고, 복잡한 장면에서의 적용 수요도 만족하기 어렵다. 일부 개진 기술은 멀티 모달리티 정보를 사용하여 비디오의 주제 분류를 시도하려 한다. 그러나, 본 출원 발명인은 멀티 모달리티 정보만을 사용하여서는 아주 좋은 분류 결과를 획득할 수 없다는 것을 발견하였다.

이로하여, 본 발명의 실시예는 지식 베이스를 기반으로 하는 멀티 모달리티 주제 분류 방법을 제공한다. 이는 지식 베이스 중의 지식과 멀티 모달리티 정보를 결합하여, 멀티 모달리티 주제 분류를 수행한다. 본 발명의 실시예에 따라, 특징을 추출할 경우 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우 링크 된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다. 멀티 모달리티의 주제 분류는 멀티 모달리티 정보를 더 잘 이용할 수 있는 동시에, 지식 베이스의 엔티티 링크를 통해 주제 분류에 더 많은 참조 정보를 가져올 수 있다. 이로하여, 더 좋은 주제 분류 효과를 획득한다.

본 발명의 실시예는 대상의 주제 분류 또는 태그 생성에 적용되고, 대상에 대한 이해과 검색을 촉진한다. 이외에, 본 발명의 실시예는 대상 배포 및 추천에도 사용할 수 있으므로, 대상 추천 콜드 스타트의 장면에 적용된다. 이하, 도면1 내지 8을 참조하여, 본 발명의 일부 예시적인 실시예를 상세하게 설명한다.

도1은 본 발명의 실시예의 대상의 주제를 결정하기 위한 예시 환경(100)을 나타내고, 대상은 비디오를 예시로 하고, 대상은 음성 및 이미지 등일 수도 있다. 도1에서 도시한 바와 같이, 비디오(110)를 멀티 모달리티 주제 이해 시스템(120)에 입력하여, 비디오(110)에 대응하는 주제 출력(130)을 획득할 수 있다. 멀티 모달리티 주제 이해 시스템(120)은 주제 분류 모델(121) 및 주제 추정 모델(122)을 포함한다. 비디오(110)는 긴 비디오, 짧은 비디오, 작은 비디오 등과 같은 각 유형의 비디오일 수 있다. 도1에는 동시에 주제 분류 모델(121) 및 주제 추정 모델(122)을 나타냈지만, 일부 실시예에서, 멀티 모달리티 주제 이해 시스템(120)은 주제 추정 모델(122)을 포함하지 않을 수도 있다.

주제 분류 모델(121)은 비디오(110)의 멀티 모달리티 정보(예를 들면, 시각 정보, 오디오 정보, 텍스트 정보 등)를 사용하여, 폐쇄 주제의 분류를 수행할 수 있고, 폐쇄 주제는 인공으로 정리할 수 있고, 컴퓨터로 자동으로 추출하여 생성할 수 있다. 주제 추정 모델(122)은 비디오(110)의 텍스트 정보를 기반으로, 비디오의 주제 추정을 결정한다. 주제 추정은 더 세밀하고 개방형인 주제를 사용하여 비디오 태그를 생성한다. 따라서, 주제 분류 결과와 주제 추정 결과를 융합하여, 융합된 주제 출력(130)을 획득할 수 있다. 따라서, 본 발명 실시예의 멀티 모달리티 주제 이해 시스템(120)은 폐쇄 주제 분류에 적용할 수도 있고, 개방 주제의 주석에도 적용할 수 있으므로, 아주 완정하다.

주제 분류 모델(121) 및 주제 추정 모델(122)은 지식 베이스(125) 중의 지식을 사용하여 각자의 주제 분류 또는 추정을 구현한다. 지식 베이스(125)에는 비디오와 관련되는 일부 엔티티 및 대응되는 주제 유형을 저장할 수 있다.

도2는 본 발명 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 방법(200)의 흐름도를 나타내고, 방법(200)은 도1을 참조하여 설명한 주제 분류 모델(121)로 수행될 수 있다.

블록(202)에서, 대상의 텍스트 정보와 비 텍스트 정보를 획득하고, 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함한다. 비디오에 있어서, 비 텍스트 정보는 시각 정보와 오디오 정보를 포함하고; 오디오에 있어서, 비 텍스트 정보는 오디오 정보를 포함하고; 이미지에 있어서, 비 텍스트 정보는 시각 정보를 포함한다. 예를 들면, 주제 분류 모델(121)은 입력된 비디오(110)에 대하여, 비디오(110)의 시각 정보, 오디오 정보 및 텍스트 정보와 같은 멀티 모달리티 정보를 추출할 수 있고, 시각 정보는 비디오 정보와 이미지 프레임을 포함하고, 텍스트 정보는 문자 부분 및 이미지와 음성에서 식별된 텍스트를 포함한다. 각 정보의 내원 또는 형식은 모두 모달리티로 불리운다. 정보의 매체에는 음성, 시각, 문자 등이 있는데, 상기 각자는 모두 모달리티로 불리울 수 있다. 멀티 모달리티 주제 이해는 기계 학습의 방법으로 멀티 모달리티 정보를 처리하고 이해하는 능력을 구현한다.

블록(204)에서, 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정한다. 예를 들면, 주제 분류 모델(121)은 비디오에 대해 미리 구축된 지식 베이스(125)에 따라, 텍스트에 관한 하나 또는 복수의 엔티티를 링크할 수 있다. 텍스트 정보에 엔티티 링크를 수행하는 것을 통해, 텍스트 중의 일부 비디오와 관련되는 정보를 추출할 수 있다.

블록(206)에서, 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출한다. 주제 분류 모델(121)은 비디오의 텍스트 특징을 추출할 경우, 비디오의 텍스트 정보 및 텍스트 정보에서 추출된 엔티티 집합을 동시에 고려하므로, 더 정확한 텍스트 정보를 획득한다.

블록(208)에서, 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정한다. 여기서, 비 텍스트 특징은 시각 특징과 오디오 특징 중의 적어도 하나를 포함하고, 시각 특징은 시각 정보를 기반으로 추출되고, 오디오 특징은 오디오 정보를 기반으로 추출된다. 주제 분류 모델(121)은 멀티 모달리티 정보의 복수의 특징을 기반으로, 비디오의 분류 주제를 결정한다.

따라서, 본 발명의 실시예의 방법(200)은 멀티 모달리티 정보를 기반으로 대상 주제를 분류하는 과정에서, 특징을 추출할 경우, 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출하는 과정에서 상기 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다.

본 발명의 실시예는 자동적인 방식으로 대상을 주제 분류하고, 과정이 고효율적이고 원가가 낮다. 이외에, 본 발명의 실시예는 멀티 모달리티의 정보를 충분히 이용하여, 부동한 모달리티의 정보를 융합할 수 있고, 부동한 모달리티의 특점을 결합하는 동시에, 부동한 모달리티의 정보를 사용하여 검사 및 얼라인먼트한다. 동시에, 지식 베이스를 결합하여 멀티 모달리티 정보를 더 잘 이해하게 하므로, 더 전면적이고 더 심층적으로 멀티 모달리티의 주제 이해를 수행한다.

도3은 본 발명 실시예에 따른 비디오의 텍스트 정보를 획득하기 위한과정(300)의 개략도를 나타낸다. 도3에 도시한 바와 같이, 입력된 비디오(110)의 멀티 모달리티 정보를 추출한다. 당해 정보는, 시각 정보(310)(비디오의 커버 프레임 둥과 같은 비디오 정보와 이미지 프레임을 포함함), 오디오 정보(320) 및 문자 정보(330)를 포함하고, 문자 정보(330)는 비디오(110)의 타이틀, 관련 설명 또는 요약, 사용자 평론, 동영상 댓글 자막 등을 포함한다.

블록(311)에서, 비디오 정보(310)에 대해 광학 문자 인식(OCR)을 수행하여, 그 중의 이미지 텍스트(312)를 추출한다. 블록(321)에서, 오디오 정보(320)에 대해 자동 음성 인식(ASR)을 수행하여, 그 중의 음성 텍스트(322)를 추출한다. 문자 정보(330)에 따라, 문자 텍스트(332)를 획득할 수 있다. 다음, 부동한 경로로 획득된 이미지 텍스트(312), 음성 텍스트(322), 문자 텍스트(332)들을 융합하여, 비디오의 텍스트 정보(333)를 획득한다. 이런 방식을 통해, 더 풍부한 비디오 텍스트 정보를 획득할 수 있어, 주제 분류의 정확성을 향상시킨다.

도4는 본 발명 실시예에 따른 비디오의 다단계 주제 분류 결과를 결정하기 위한 과정(400)의 개략도를 나타낸다. 이해해야 할 것은, 도4의 과정(400)은 도1 중의 주제 분류 모델(121)의 예시를 구현하는 과정일 수 있다. 도4에 도시한 바와 같이, 어텐션 장단기 메모리(LSTM)모델(405) 및 컨볼 루션 신경망(CNN)모델(415)(예를 들면, RCNN 모델)을 사용하여 시각 특징(410), 오디오 특징(420) 및 텍스트 특징(430)을 각각 추출한다.

어텐션 LSTM 모델(405)은 어텐션 메커니즘을 기반으로 하는 LSTM이고, 컨볼 루션 특징 계산, 특징 집계 등 동작을 수행할 수 있다. 어텐션 LSTM 모델(405)은 OCR인식, 안면 인식 및 특징 추출을 통해, 시각 정보(310)의 시각 특징(410)을 생성하고, ASR인식과 특징 추출을 통해, 오디오 정보(320)의 오디오 특징(420)을 생성한다.

CNN모델(415)은 미리 훈련된 언어 모델을 통해 워드 임베딩 벡터, 문자 임베딩 벡터를 추출할 수 있고, 텍스트를 엔티티 링크하여, 텍스트 중의 엔티티를 링크하고, 미리 훈련된 엔티티의 벡터 생성 모델을 통해 엔티티 임베딩 벡터를 획득하고, 다음 상기 임베딩 벡터를 융합한다. 이외에, CNN모델(415)은 위치 임베딩, 미리 훈련된 엔티티 임베딩 등 과정에 관한 것일 수 있고, 심층 신경망을 통해 저위도 의미 특징을 추출하여, 대응되는 텍스트 특징(430)을 획득한다. 예를 들면, 지식 베이스(125)를 기반으로, 텍스트 정보(333)에서 엔티티 집합(408)을 추출하고, 다음 CNN모델(415)은 텍스트 정보(333) 및 엔티티 집합(408)에 따라, 대응되는 텍스트 특징(430)을 추출한다. 특징 추출할 경우 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우, 상기 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 비디오의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다.

다음으로, 블록(425)에서, 시각 특징(410), 오디오 특징(420) 및 텍스트 특징(430)을 융합하여, 비디오의 융합 특징(435)을 획득한다. 예를 들면, 특징 융합 과정은 복수의 모달리티 정보를 결합하고, 모달리티 사이의 연관성을 판단하고, 멀티 모달리티의 특징 정보에 대해 차원 감소 및 처리를 수행할 수 있다.

계속해서 도4를 참조하면, 엔티티 집합(408)에서 제일 핵심적인 핵심 엔티티(445)를 추출하고, 지식 베이스(125)에 따라, 핵심 엔티티(445)에 대응하는 주제 유형을 결정한다. 예를 들면, 엔티티 링크를 통해 핵심 엔티티(445)를 획득하고, 비디오 지식 그래프에 따라, 소속된 주제 유형을 획득한다. 예를 들면, 텍스트 "<무간도>클래식 장면, 한침은 그의 손에 죽을 줄은 꿈에도 생각지 못했을 것이다"에서 추출한 핵심 엔티티(445)는 "무간도"이고, 핵심 엔티티가 속하는 주제 유형은 "영화"이다.

그리고, 블록(465)에서, 핵심 엔티티(445)의 임베딩 벡터 및 대응되는 주제 유형의 임베딩 벡터를 사용하여 융합 특징(435)(예를 들면, 융합은 h로 표시함)에 대해 어텐션 처리를 수행하여, 제1 특징(V1) 및 제2 특징(V2)을 획득하고, 블록475와 같이, V1 및 V2를 합병 또는 융합한다. 획득된 제1 특징(V1) 및 제2 특징(V2)에 따라, 계층 분류 기술을 사용하여 다단계 주제 분류 결과(485)(예를 들면, 1단계 주제 분류 결과, 2단계 주제 분류 결과 등)를 획득할 수 있고, 한정된 태그의 분류 방식을 사용할 수 있다.

도5는 본 발명 실시예에 따른 핵심 엔티티 및 그에 대응하는 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하기 위한 개략도(500)를 나타낸다. h1, h2...hn는 융합 특징의 벡터의 각 부분을 표시하고, CE_emb는 핵심 엔티티의 벡터를 표시하고, EC_emb는 핵심 엔티티가 속하는 주제 유형의 벡터를 표시한다. 510은 핵심 엔티티의 벡터CE_emb를 사용하여 융합 특징h에 대해 어텐션 처리를 수행하여, 대응되는 제1 특징(V1)을 생성하는 단계를 나타낸다. 520은 핵심 엔티티가 속하는 주제 유형의 벡터EC_emb를 사용하여 융합 특징h에 대해 어텐션 처리를 수행하여, 대응되는 제2 특징(V2)을 생성하는 것을 나타낸다. 다음 530에서, 계층 분류를 수행하여 대응되는 계층 주제 분류 결과를 획득한다. 다음 공식(1)-(3)은 어텐션 처리의 계산 공식을 나타낸다.

,

(1)

(2)

(3)

여기서, α_ij

는 핵심 엔티티 또는 주제 유형이 융합 특징 각 부분에 대한 가중치를 표시하고, i=0일 경우 핵심 엔티티의 가중치를 표시하고, i=1일 경우 핵심 엔티티의 주제 유형의 가중치를 표시하며, j는 융합 특징 h 중의 제j 번째 부분을 표시한다.

따라서, 핵심 엔티티 및 그 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하여, 주제 분류의 정확성을 더 향상시킬 수 있다.

도6은 본 발명 실시예에 따른 엔티티 벡터 생성 모듈을 훈련하기 위한 개략도(600)를 나타낸다. 도6에 도시한 바와 같이, 각 엔티티에 대하여, 단독으로 된 모델을 각각 구축하고, 포지티브 예시와 네거티브 예시의 비율은 미리 설정할 수 있다. 예를 들면, 1:10로 설정할 수 있다.

블록610은 엔티티의 포지티브 예시의 구축 과정을 나타낸다. 지식 베이스(125)에서 엔티티의 텍스트 설명(611)(예를 들면, 텍스트 요약과 설명 정보 등) 및 엔티티의 관련 비디오(612)를 획득한다. 다음 word2vec를 통해, 텍스트 벡터(613)를 획득하고, video2vec를 통해 비디오 벡터(614)를 획득하며, 텍스트 벡터(613)와 비디오 벡터(614)를 융합하여, 포지티브 예시 벡터(615)를 획득한다.

블록620은 엔티티의 네거티브 예시의 구축 과정을 나타낸다. 지식 베이스(125)의 모든 엔티티의 텍스트 요약 정보와 설명의 단어 빈도 정보를 통계하고, 대역 주파수 랜덤 샘플링을 통해, 네거티브 예시의 어휘 시퀀스(621)를 획득하고, 지식 베이스(125)에서 비디오(622)를 랜덤 샘플링한다. 다음 word2vec를 통해 텍스트 벡터(623)를 획득하고, video2vec를 통해 비디오 벡터(624)를 획득하고, 텍스트 벡터(623)와 비디오 벡터(624)를 융합하여, 네거티브 예시 벡터(625)를 획득한다.

그리고, 신경망을 통해 벡터를 처리(예를 들면, 차원 감소 둥)하고, sigmod에 입력하고, 최종 파라미터를 엔티티 벡터로 결정한다. 이런 방식을 통해, 포지티브 예시5와 네거티브 예시를 사용하여 엔티티의 벡터 생성 모델을 훈련할 수 있다. 생성된 엔티티 벡터 생성 모델은 사용될 경우 엔티티에 대응하는 엔티티 벡터를 생성하여, 주제 분류의 정확성을 향상시킨다.

도7은 본 발명 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 장치(700)의 블록도를 나타낸다. 도7에 도시한 바와 같이, 장치(700)는, 멀티 모달리티 정보 획득 모듈(710), 엔티티 링크 모듈(720), 텍스트 특징 추출 모듈(730), 및 주제 분류 결정 모듈(740)을 포함한다. 멀티 모달리티 정보 획득 모듈(710)은 대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성되고, 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함한다. 엔티티 링크 모듈(720)은 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된다. 텍스트 특징 추출 모듈(730)은 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하도록 구성된다. 주제 분류 결정 모듈(740)은 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하도록 구성되고, 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출된다.

일부 실시예에서, 멀티 모달리티 정보 획득 모듈(710)은, 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하도록 구성된 이미지 텍스트 획득 모듈; 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하도록 구성된 음성 텍스트 획득 모듈; 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하도록 구성된 문자 텍스트 획득 모듈; 및 이미지 텍스트, 음성 텍스트 및 문자 텍스트를 융합하여, 텍스트 정보를 획득하도록 구성된 텍스트 융합 모듈; 을 포함한다.

일부 실시예에서, 주제 분류 결정 모듈(740)은, 시각 정보와 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하도록 구성된 특징 추출 모듈; 시각 특징, 오디오 특징 및 텍스트 특징을 융합하여, 대상의 융합 특징을 획득하도록 구성된 융합 특징 획득 모듈; 및 융합 특징을 기반으로, 대상의 다단계 주제 분류를 결정하도록 구성된 다단계 주제 분류 결정 모듈; 을 포함한다.

일부 실시예에서, 다단계 주제 분류 결정 모듈은, 엔티티 집합 중의 핵심 엔티티를 결정하도록 구성된 핵심 엔티티 결정 모듈; 및 지식 베이스를 기반으로, 핵심 엔티티에 대응하는 주제 유형을 결정하도록 구성된 주제 유형 결정 모듈; 을 포함한다.

일부 실시예에서, 다단계 주제 분류 결정 모듈은, 핵심 엔티티의 벡터를 사용하여 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하도록 구성된 제1 특징 획득 모듈; 주제 유형의 벡터를 사용하여 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하도록 구성된 제2 특징 획득 모듈; 및 제1 특징 및 제2 특징을 기반으로, 대상의 다단계 주제 분류를 획득하도록 구성된 다단계 주제 분류 획득 모듈; 을 더 포함한다.

일부 실시예에서, 장치(700)는, 각 엔티티에 대해, 지식 베이스 중의 엔티티의 텍스트 설명과 엔티티와 관련된 대상을 기반으로, 포지티브 예시 벡터를 획득하고; 랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하고; 미리 설정된 비율의 포지티브 예시 벡터와 네거티브 예시 벡터를 기반으로, 엔티티의 벡터 생성 모델을 훈련하도록 구성된 훈련 모듈; 을 더 포함한다.

일부 실시예에서, 훈련 모듈은, 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하도록 구성된 통계 모듈; 및 각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하도록 구성된 랜덤 선택 모듈; 을 포함한다.

일부 실시예에서, 장치(700)는, 텍스트 정보를 기반으로, 대상의 주제 추정을 결정하도록 구성된 주제 추정 모듈; 및 대상의 주제 분류와 주제 추정을 기반으로, 대상의 융합 주제를 결정하도록 구성된 융합 주제 결정 모듈; 을 더 포함한다.

본 발명은 또한 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.

도8은 본 발명의 실시예를 구현하기 위한 예시적인 기기(800)의 개략적인 블록도를 나타낸다. 도시한 바와 같이, 기기(800)는, 읽기 전용 메모리(ROM)(802)에 저장되어 있는 컴퓨터 프로그램 명령 또는 저장 유닛(808)에서 랜덤 엑세스 메모리(RAM)(803)에로 로딩된 컴퓨터 프로그램 명령에 따라, 각 적당한 동작 및 처리를 수행할 수 있는 중앙 처리 유닛(CPU)(801)을 포함한다. RAM(803)에서, 기기(800)의 동작에 수요되는 각 프로그램 및 데이터를 더 저장할 수 있다. CPU (801), ROM (802) 및 RAM (803)은 버스(804)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(805)도 버스(804)에 연결된다.

I/O 인터페이스(805)에 연결되는 기기(800) 중의 복수의 부품은, 키보드, 마우스 등과 같은 입력 유닛(806); 각 유형의 디스플레이, 스피커 등과 같은 출력 유닛(807); 자기 디스크, 광 디스크 등과 같은 저장 유닛(808); 및 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(809); 을 포함한다. 통신 유닛(809)은 기기(800)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 텔레콤 네트워크를 통해, 기타 기기와 정보/테이터를 교환하는 것을 허락한다.

처리 유닛(801)은 상기 설명한 각 방법과 과정을 수행한다. 예를 들면, 일부 실시예에서, 당해 방법과 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(808)과 같은 기계 판독 가능 메체에 포함되어 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)을 통해 기기(800)에 로드 및/또는 설치된다. 컴퓨터 프로그램이 RAM(803)에 로드되고 CPU(801)에 의해 수행될 경우, 상기 설명한 방법 중의 하나 또는 복수의 동작 또는 단계를 수행할 수 있다. 또한, 기타 실시예에서, CPU(801)는 기타 임의의 적당한 방식(예를 들면, 펌웨어를 사용함)을 통해 본 발명 실시예의 각 방법을 수행하도록 구성된다.

본 명세서에서 설명한 기능은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 부품에 의해 수행된다. 예를 들면, 무제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부품은, 필드 프로그램 가능 게이트 어레이 (FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD) 등이 있다.

본 발명의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의 조합으로 프로그래밍할 수 있다. 당해 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우, 흐름도 및/또는 블록도에서 규정한 기능/동작이 수행된다. 프로그램 코드는 완전히 기계에서 수행될 수 있고, 부분적으로 기계에서 수행될 수 있으며, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행되고, 부분적으로 원적 기계에서 수행되거나, 완전히 원격 기계 또는 서버에서 수행될 수 있다.

본 발명의 앞뒤 설명에서, 기계 판독 가능 매체는 유형 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기에서 사용하거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는, 하나 또는 복수의 전선을 기반으로 한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의의 적합한 조합을 포함한다.

본 명세서에서 설명한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체에서 각 계산/처리 기기에 다운할 수 있고, 또는 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선 네트워크와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기에 다운할 수 있다. 네트워크는, 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 스위치, 케이트웨이 컴퓨터 및/또는 에지 서버를 포함한다. 각 계산/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 당해 컴퓨터 판독 가능 프로그램 명령을 전달하여, 각 계산/처리 기기 중의 컴퓨터 판독 가능 저장 매체에 저장하도록 제공한다.

이외에, 특정 순서로 각 동작 또는 단계를 설명하였으나, 이런 동작 또는 단계를 나타낸 특정 순서 또는 순차 순서로 수행할 것을 요구하거나, 모든 도면에서 나타난 동작 또는 단계를 수행하고, 원하는 결과를 획득하도록 요구한다고 이해해야 한다. 일정한 환경에서, 멀티 태스크와 병렬 처리는 유리한 것이다. 동시에, 상기 설명은 몇 가지의 구체적인 구현 세부를 포함하지만, 본 발명 범위를 한정하는 것으로 이해해서는 안된다. 단독 실시예의 앞뒤 설명에서 설명한 일부 특징은 조합하여 개별 구현에 구현될 수 있다. 반대로, 개별적으로 구현된 앞뒤 설명에서 설명한 각 특징은 단독 또는 임의의 적합한 서브 조합의 방식으로 복수의 구현에 구현된다.

이미 구조 특징 및/또는 방법 논리 동작에 특정된 언어로 본 발명의 실시예를 설명하였으나, 첨부된 청구범위에서 한정된 주제는 상기 설명의 특정 특징 또는 동작에 한정되지 않는다는 점을 이해해야 한다. 반대로, 상기 특정 특징과 동작은 청구범위를 구현하는 예시 형식일 뿐이다.

Claims

멀티 모달리티를 기반으로 하는 주제 분류 방법에 있어서,
대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 상기 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ;
미리 구축된 지식 베이스를 기반으로, 상기 텍스트 정보에 관한 하나 또는 복수의 엔티티를 링크하고, 상기 텍스트 정보에 엔티티 링크를 수행하는 것을 통해 상기 텍스트 정보 중의 상기 대상과 관련되는 정보를 추출하여 상기 텍스트 정보 중의 엔티티 집합을 결정하는 단계;
상기 텍스트 정보와 상기 엔티티 집합을 기반으로, 상기 대상의 텍스트 특징을 추출하는 단계; 및
상기 대상의 상기 텍스트 특징과 비 텍스트 특징을 기반으로, 상기 대상의 주제 분류를 결정하는 단계 - 상기 비 텍스트 특징은 상기 비 텍스트 정보를 기반으로 추출됨 - ; 를 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제1항에 있어서,
상기 대상의 상기 텍스트 정보를 획득하는 단계는,
상기 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하는 단계;
상기 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하는 단계;
상기 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하는 단계; 및
상기 이미지 텍스트, 상기 음성 텍스트 및 상기 문자 텍스트를 융합하여, 상기 텍스트 정보를 획득하는 단계; 를 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제1항에 있어서,
상기 대상의 주제 분류를 결정하는 단계는,
상기 시각 정보와 상기 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하는 단계;
상기 시각 특징, 상기 오디오 특징 및 상기 텍스트 특징을 융합하여, 상기 대상의 융합 특징을 획득하는 단계; 및
상기 융합 특징을 기반으로, 상기 대상의 다단계 주제 분류를 결정하는 단계; 를 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제3항에 있어서,
상기 대상의 다단계 주제 분류를 결정하는 단계는,
상기 엔티티 집합 중의 핵심 엔티티를 결정하는 단계; 및
상기 지식 베이스를 기반으로, 상기 핵심 엔티티에 대응하는 주제 유형을 결정하는 단계; 를 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제4항에 있어서,
상기 대상의 다단계 주제 분류를 결정하는 단계는,
상기 핵심 엔티티의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하는 단계;
상기 주제 유형의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하는 단계; 및
상기 제1 특징 및 상기 제2 특징을 기반으로, 상기 대상의 상기 다단계 주제 분류를 획득하는 단계; 를 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제1항에 있어서,
각 엔티티에 대해,
상기 지식 베이스 중의 상기 엔티티의 텍스트 설명과 상기 엔티티와 관련되는 대상을 기반으로, 포지티브 예시 벡터를 획득하는 단계;
랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하는 단계; 및
미리 설정된 비율의 상기 포지티브 예시 벡터와 상기 네거티브 예시 벡터를 기반으로, 상기 엔티티의 벡터 생성 모델을 훈련하는 단계; 를 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제6항에 있어서,
상기 네거티브 예시 벡터를 획득하는 단계는,
상기 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하는 단계; 및
각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하는 단계; 를 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
제1항에 있어서,
상기 텍스트 정보를 기반으로, 상기 대상의 주제 추정을 결정하는 단계; 및
상기 대상의 상기 주제 분류와 상기 주제 추정을 기반으로, 상기 대상의 융합 주제를 결정하는 단계; 를 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
멀티 모달리티를 기반으로 하는 주제 분류 장치에 있어서,
대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성된 멀티 모달리티 정보 획득 모듈 - 상기 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ;
미리 구축된 지식 베이스를 기반으로, 상기 텍스트 정보에 관한 하나 또는 복수의 엔티티를 링크하고, 상기 텍스트 정보에 엔티티 링크를 수행하는 것을 통해 상기 텍스트 정보 중의 상기 대상과 관련되는 정보를 추출하여 상기 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된 엔티티 링크 모듈;
상기 텍스트 정보와 상기 엔티티 집합을 기반으로, 상기 대상의 텍스트 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및
상기 대상의 상기 텍스트 특징과 비 텍스트 특징을 기반으로, 상기 대상의 주제 분류를 결정하도록 구성된 주제 분류 결정 모듈 - 상기 비 텍스트 특징은 상기 비 텍스트 정보를 기반으로 추출됨 - ; 을 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제9항에 있어서,
상기 멀티 모달리티 정보 획득 모듈은,
상기 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하도록 구성된 이미지 텍스트 획득 모듈;
상기 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하도록 구성된 음성 텍스트 획득 모듈;
상기 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하도록 구성된 문자 텍스트 획득 모듈; 및
상기 이미지 텍스트, 상기 음성 텍스트 및 상기 문자 텍스트를 융합하여, 상기 텍스트 정보를 획득하도록 구성된 텍스트 융합 모듈; 을 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제9항에 있어서,
상기 주제 분류 결정 모듈은,
상기 시각 정보와 상기 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하도록 구성된 특징 추출 모듈;
상기 시각 특징, 상기 오디오 특징 및 상기 텍스트 특징을 융합하여, 상기 대상의 융합 특징을 획득하도록 구성된 융합 특징 획득 모듈; 및
상기 융합 특징을 기반으로, 상기 대상의 다단계 주제 분류를 결정하도록 구성된 다단계 주제 분류 결정 모듈; 을 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제11항에 있어서,
상기 다단계 주제 분류 결정 모듈은,
상기 엔티티 집합 중의 핵심 엔티티를 결정하도록 구성된 핵심 엔티티 결정 모듈; 및
상기 지식 베이스를 기반으로, 상기 핵심 엔티티에 대응하는 주제 유형을 결정하도록 구성된 주제 유형 결정 모듈; 을 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제12항에 있어서,
상기 다단계 주제 분류 결정 모듈은,
상기 핵심 엔티티의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하도록 구성된 제1 특징 획득 모듈;
상기 주제 유형의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하도록 구성된 제2 특징 획득 모듈; 및
상기 제1 특징 및 상기 제2 특징을 기반으로, 상기 대상의 상기 다단계 주제 분류를 획득하도록 구성된 다단계 주제 분류 획득 모듈; 을 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제9항에 있어서,
각 엔티티에 대해;
상기 지식 베이스 중의 상기 엔티티의 텍스트 설명과 상기 엔티티와 관련되는 대상을 기반으로, 포지티브 예시 벡터를 획득하고;
랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하고;
미리 설정된 비율의 상기 포지티브 예시 벡터와 상기 네거티브 예시 벡터를 기반으로, 상기 엔티티의 벡터 생성 모델을 훈련하도록 구성된 훈련 모듈; 을 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제14항에 있어서,
상기 훈련 모듈은,
상기 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하도록 구성된 통계 모듈; 및
각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하도록 구성된 랜덤 선택 모듈; 을 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
제9항에 있어서,
상기 텍스트 정보를 기반으로, 상기 대상의 주제 추정을 결정하도록 구성된 주제 추정 모듈; 및
상기 대상의 상기 주제 분류와 상기 주제 추정을 기반으로, 상기 대상의 융합 주제를 결정하도록 구성된 융합 주제 결정 모듈; 을 더 포함하는,
것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
전자 기기에 있어서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램을 저장하기 위한 저장 장치; 를 포함하고,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 수행되어, 상기 전자 기기가 제1항 내지 제8항 중 어느 한 항의 방법을 구현하도록 하는,
것을 특징으로 하는 전자 기기.
컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 수행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.