KR102455616B1 - 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 - Google Patents

멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR102455616B1
KR102455616B1 KR1020210017976A KR20210017976A KR102455616B1 KR 102455616 B1 KR102455616 B1 KR 102455616B1 KR 1020210017976 A KR1020210017976 A KR 1020210017976A KR 20210017976 A KR20210017976 A KR 20210017976A KR 102455616 B1 KR102455616 B1 KR 102455616B1
Authority
KR
South Korea
Prior art keywords
text
subject
information
feature
entity
Prior art date
Application number
KR1020210017976A
Other languages
English (en)
Other versions
KR20210104571A (ko
Inventor
치 왕
즈판 펑
즈제 리우
춘광 차이
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210104571A publication Critical patent/KR20210104571A/ko
Application granted granted Critical
Publication of KR102455616B1 publication Critical patent/KR102455616B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06K9/6255
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예는 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체에 관한 것으로, 지식 그래프 분야에 관한 것이다. 방법은, 대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하고, 텍스트 정보와 엔티티 집합을 기반으로 대상의 텍스트 특징을 추출하는 단계; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로 대상의 주제 분류를 결정하는 단계; 를 포함한다. 본 발명의 실시예는 멀티 모달리티 정보를 기반으로 하는 대상 주제 분류 과정에서, 지식 베이스를 기반으로 하는 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우, 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있고, 더 정확한 주제 분류 결과를 획득한다.

Description

멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체{THEME CLASSIFICATION METHOD BASED ON MULTIMODALITY, DEVICE, APPARATUS, AND STORAGE MEDIUM}
본 발명은 총체적으로 컴퓨터 분야에 관한 것이고, 더 구체적으로 지식 그래프 분야에 관한 것이다.
모바일 인터넷의 발전에 따라, 네트워크 자원(예를 들면, 비디오, 음성, 이미지 등)이 점점 유행되고 있다. 예를 들면, 비디오는 시간의 길고 짧음에 따라, 긴 비디오, 짧은 비디오 및 작은 비디오 등으로 나눈다. 긴 비디오는 시간이 비교적 길고, 주로 영화 및TV 프로그램으로 된 비디오이며, 통상적으로 전문 영화사에서 촬영한다. 짧은 비디오는 시간이 비교적 짧고, 소재가 더 풍부한 비디오이며, 통상적으로 영화사의 전문 또는 세미프로 팀에서 촬영하는 것이 아니다. 작은 비디오는 시간이 통상적으로 1분 내(예를 들면, 15초)에 있고, 주로 개인 사용자가 제작하며, 통상적으로 사용자 일상 생활과 관련되는 비디오이다.
대형 멀티미디어 데이터 베이스(예를 들면, 비디오)를 구비한 조직에게 있어서, 통상적으로 비디오에 대해 주제 분류를 해야 한다. 주제 분류는 사용자가 더 용이하게 필요한 내용을 검색할 수 있도록 하는 동시에, 비디오 배포 및 사용자 맞춤 추천도 편리해졌다. 통상적으로, 비디오의 타이틀 및 텍스트 설명을 기반으로 비디오를 분류할 수 있고, 비디오의 구체적 내용을 기반으로 비디오를 분류할 수도 있다.
본 발명의 예시적인 실시예에 따르면, 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체를 제공한다.
본 발명의 제1 측면은 멀티 모달리티를 기반으로 하는 주제 분류 방법을 제공하고, 당해 방법은, 대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하는 단계; 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하는 단계; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하는 단계 - 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출됨 - ; 를 포함한다.
본 발명이 제2 측면은 멀티 모달리티를 기반으로 하는 주제 분류 장치를 제공하고, 당해 장치는, 대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성된 멀티 모달리티 정보 획득 모듈 - 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ; 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된 엔티티 추출 모듈; 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하도록 구성된 주제 분류 결정 모듈 - 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출됨 - ; 을 포함한다.
본 발명의 제3 측면은 전자 기기를 제공하고, 당해 전자 기기는, 하나 또는 복수의 프로세서 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함한다. 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 수행되어, 전자 기기가 본 발명의 실시예의 방법 또는 과정을 구현하도록 한다.
본 발명의 제4 측면은 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 매체를 제공하고, 당해 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.
본 발명의 제5 측면은 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.
이해해야할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.
도면과 결합하여 이하의 상세한 설명을 참조하면, 본 발명의 각 실시예의 상기 또는 기타 특징, 장점 및 측면은 더 뚜렷해진다. 도면에서 동일 또는 유사한 도면 부호는 동일 또는 유사한 요소를 표시한다.
도1은 본 발명의 실시예에 따른 대상의 주제를 결정하기 위한 예시 환경을 나타낸다.
도2는 본 발명의 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 방법의 흐름도를 나타낸다.
도3은 본 발명의 실시예에 따른 비디오의 텍스트 정보를 획득하기 위한과정의 개략도를 나타낸다.
도4는 본 발명의 실시예에 따른 비디오의 다단계 주제 분류 결과를 결정하기 위한 과정의 개략도를 나타낸다.
도5는 본 발명의 실시예에 따른 핵심 엔티티 및 그에 대응하는 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하기 위한 개략도를 나타낸다.
도6은 본 발명의 실시예에 따른 엔티티 벡터 생성 모듈을 훈련하기 위한 개략도를 나타낸다.
도7은 본 발명의 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 장치의 블록도를 나타낸다.
도8은 본 발명의 복수의 실시예를 실시할 수 있는 전자 기기의 블록도를 나타낸다.
이하, 도면을 참조하여 본 발명의 실시예를 더 상세하게 설명한다. 도면에는 본 발명의 일부 실시예를 나타냈지만, 이해해야할 것은, 본 발명은 각 형식을 통해 구현될 수 있고, 실시예에 한정된다고 해석해서는 안되며, 반대로, 이 실시예를 제공하는 것은 본 발명을 더 투철 및 완정하게 이해하기 위한 것이다. 이해해야할 것은, 본 발명의 도면 및 실시예는 예시적인 것일 뿐, 본 발명의 보호 범위를 한정하기 위한것이 아니다.
본 발명의 실시예의 설명에서 전문 용어 "포함"및 유사한 용어는 개방성 포함으로 이해해야 한다. 즉, "포함하나 한정되지 않는다". 전문 용어 "기반으로"는 "적어도 부분적으로 기반으로"로 이해해야 한다. "일 실시예" 또는 "당해 실시예"는 "적어도 하나의 실시예"로 이해해야 한다. 하기 문장에는 기타 명확하고 내포된 정의를 포함할 수 있다.
본 발명의 일부 실시예는 비디오를 대상으로 하는 예시로, 본 발명의 멀티 모달리티를 기반으로 하는 주제 분류 방법를 설명한다. 그러나, 음성, 이미지 등 대상도 본 발명의 주제 분류 방법과 결합하여 사용할 수 있다.
예를 들면, 관리, 검색 또는 비디오 추천을 용이하게 하기 위해, 통상적으로 비디오를 분류할 필요가 있다. 전통적인 비디오 분류 방법은 주로 하기의 두가지 방법이 있다. 한가지는 인공 주석 방식이다. 그러나, 인공 주석 방식은 원가가 높을 뿐만 아니라 시간이 비교적 많이 걸리므로 오류가 발생하기 쉽고 정기 정비가 필요하고 대규모로 실시할 수 없다. 다른 하나는 기계 학습을 통한 방식이다. 예를 들면, 기계 합습 모델은 비디오의 텍스트 정보 또는 시각 정보를 기반으로 분류하나, 모노 모달리티의 정보는 통상적으로 정보량이 비교적 적으므로, 분류 결과가 정확하지 않고, 복잡한 장면에서의 적용 수요도 만족하기 어렵다. 일부 개진 기술은 멀티 모달리티 정보를 사용하여 비디오의 주제 분류를 시도하려 한다. 그러나, 본 출원 발명인은 멀티 모달리티 정보만을 사용하여서는 아주 좋은 분류 결과를 획득할 수 없다는 것을 발견하였다.
이로하여, 본 발명의 실시예는 지식 베이스를 기반으로 하는 멀티 모달리티 주제 분류 방법을 제공한다. 이는 지식 베이스 중의 지식과 멀티 모달리티 정보를 결합하여, 멀티 모달리티 주제 분류를 수행한다. 본 발명의 실시예에 따라, 특징을 추출할 경우 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우 링크 된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다. 멀티 모달리티의 주제 분류는 멀티 모달리티 정보를 더 잘 이용할 수 있는 동시에, 지식 베이스의 엔티티 링크를 통해 주제 분류에 더 많은 참조 정보를 가져올 수 있다. 이로하여, 더 좋은 주제 분류 효과를 획득한다.
본 발명의 실시예는 대상의 주제 분류 또는 태그 생성에 적용되고, 대상에 대한 이해과 검색을 촉진한다. 이외에, 본 발명의 실시예는 대상 배포 및 추천에도 사용할 수 있으므로, 대상 추천 콜드 스타트의 장면에 적용된다. 이하, 도면1 내지 8을 참조하여, 본 발명의 일부 예시적인 실시예를 상세하게 설명한다.
도1은 본 발명의 실시예의 대상의 주제를 결정하기 위한 예시 환경(100)을 나타내고, 대상은 비디오를 예시로 하고, 대상은 음성 및 이미지 등일 수도 있다. 도1에서 도시한 바와 같이, 비디오(110)를 멀티 모달리티 주제 이해 시스템(120)에 입력하여, 비디오(110)에 대응하는 주제 출력(130)을 획득할 수 있다. 멀티 모달리티 주제 이해 시스템(120)은 주제 분류 모델(121) 및 주제 추정 모델(122)을 포함한다. 비디오(110)는 긴 비디오, 짧은 비디오, 작은 비디오 등과 같은 각 유형의 비디오일 수 있다. 도1에는 동시에 주제 분류 모델(121) 및 주제 추정 모델(122)을 나타냈지만, 일부 실시예에서, 멀티 모달리티 주제 이해 시스템(120)은 주제 추정 모델(122)을 포함하지 않을 수도 있다.
주제 분류 모델(121)은 비디오(110)의 멀티 모달리티 정보(예를 들면, 시각 정보, 오디오 정보, 텍스트 정보 등)를 사용하여, 폐쇄 주제의 분류를 수행할 수 있고, 폐쇄 주제는 인공으로 정리할 수 있고, 컴퓨터로 자동으로 추출하여 생성할 수 있다. 주제 추정 모델(122)은 비디오(110)의 텍스트 정보를 기반으로, 비디오의 주제 추정을 결정한다. 주제 추정은 더 세밀하고 개방형인 주제를 사용하여 비디오 태그를 생성한다. 따라서, 주제 분류 결과와 주제 추정 결과를 융합하여, 융합된 주제 출력(130)을 획득할 수 있다. 따라서, 본 발명 실시예의 멀티 모달리티 주제 이해 시스템(120)은 폐쇄 주제 분류에 적용할 수도 있고, 개방 주제의 주석에도 적용할 수 있으므로, 아주 완정하다.
주제 분류 모델(121) 및 주제 추정 모델(122)은 지식 베이스(125) 중의 지식을 사용하여 각자의 주제 분류 또는 추정을 구현한다. 지식 베이스(125)에는 비디오와 관련되는 일부 엔티티 및 대응되는 주제 유형을 저장할 수 있다.
도2는 본 발명 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 방법(200)의 흐름도를 나타내고, 방법(200)은 도1을 참조하여 설명한 주제 분류 모델(121)로 수행될 수 있다.
블록(202)에서, 대상의 텍스트 정보와 비 텍스트 정보를 획득하고, 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함한다. 비디오에 있어서, 비 텍스트 정보는 시각 정보와 오디오 정보를 포함하고; 오디오에 있어서, 비 텍스트 정보는 오디오 정보를 포함하고; 이미지에 있어서, 비 텍스트 정보는 시각 정보를 포함한다. 예를 들면, 주제 분류 모델(121)은 입력된 비디오(110)에 대하여, 비디오(110)의 시각 정보, 오디오 정보 및 텍스트 정보와 같은 멀티 모달리티 정보를 추출할 수 있고, 시각 정보는 비디오 정보와 이미지 프레임을 포함하고, 텍스트 정보는 문자 부분 및 이미지와 음성에서 식별된 텍스트를 포함한다. 각 정보의 내원 또는 형식은 모두 모달리티로 불리운다. 정보의 매체에는 음성, 시각, 문자 등이 있는데, 상기 각자는 모두 모달리티로 불리울 수 있다. 멀티 모달리티 주제 이해는 기계 학습의 방법으로 멀티 모달리티 정보를 처리하고 이해하는 능력을 구현한다.
블록(204)에서, 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정한다. 예를 들면, 주제 분류 모델(121)은 비디오에 대해 미리 구축된 지식 베이스(125)에 따라, 텍스트에 관한 하나 또는 복수의 엔티티를 링크할 수 있다. 텍스트 정보에 엔티티 링크를 수행하는 것을 통해, 텍스트 중의 일부 비디오와 관련되는 정보를 추출할 수 있다.
블록(206)에서, 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출한다. 주제 분류 모델(121)은 비디오의 텍스트 특징을 추출할 경우, 비디오의 텍스트 정보 및 텍스트 정보에서 추출된 엔티티 집합을 동시에 고려하므로, 더 정확한 텍스트 정보를 획득한다.
블록(208)에서, 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정한다. 여기서, 비 텍스트 특징은 시각 특징과 오디오 특징 중의 적어도 하나를 포함하고, 시각 특징은 시각 정보를 기반으로 추출되고, 오디오 특징은 오디오 정보를 기반으로 추출된다. 주제 분류 모델(121)은 멀티 모달리티 정보의 복수의 특징을 기반으로, 비디오의 분류 주제를 결정한다.
따라서, 본 발명의 실시예의 방법(200)은 멀티 모달리티 정보를 기반으로 대상 주제를 분류하는 과정에서, 특징을 추출할 경우, 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출하는 과정에서 상기 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 대상의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다.
본 발명의 실시예는 자동적인 방식으로 대상을 주제 분류하고, 과정이 고효율적이고 원가가 낮다. 이외에, 본 발명의 실시예는 멀티 모달리티의 정보를 충분히 이용하여, 부동한 모달리티의 정보를 융합할 수 있고, 부동한 모달리티의 특점을 결합하는 동시에, 부동한 모달리티의 정보를 사용하여 검사 및 얼라인먼트한다. 동시에, 지식 베이스를 결합하여 멀티 모달리티 정보를 더 잘 이해하게 하므로, 더 전면적이고 더 심층적으로 멀티 모달리티의 주제 이해를 수행한다.
도3은 본 발명 실시예에 따른 비디오의 텍스트 정보를 획득하기 위한과정(300)의 개략도를 나타낸다. 도3에 도시한 바와 같이, 입력된 비디오(110)의 멀티 모달리티 정보를 추출한다. 당해 정보는, 시각 정보(310)(비디오의 커버 프레임 둥과 같은 비디오 정보와 이미지 프레임을 포함함), 오디오 정보(320) 및 문자 정보(330)를 포함하고, 문자 정보(330)는 비디오(110)의 타이틀, 관련 설명 또는 요약, 사용자 평론, 동영상 댓글 자막 등을 포함한다.
블록(311)에서, 비디오 정보(310)에 대해 광학 문자 인식(OCR)을 수행하여, 그 중의 이미지 텍스트(312)를 추출한다. 블록(321)에서, 오디오 정보(320)에 대해 자동 음성 인식(ASR)을 수행하여, 그 중의 음성 텍스트(322)를 추출한다. 문자 정보(330)에 따라, 문자 텍스트(332)를 획득할 수 있다. 다음, 부동한 경로로 획득된 이미지 텍스트(312), 음성 텍스트(322), 문자 텍스트(332)들을 융합하여, 비디오의 텍스트 정보(333)를 획득한다. 이런 방식을 통해, 더 풍부한 비디오 텍스트 정보를 획득할 수 있어, 주제 분류의 정확성을 향상시킨다.
도4는 본 발명 실시예에 따른 비디오의 다단계 주제 분류 결과를 결정하기 위한 과정(400)의 개략도를 나타낸다. 이해해야 할 것은, 도4의 과정(400)은 도1 중의 주제 분류 모델(121)의 예시를 구현하는 과정일 수 있다. 도4에 도시한 바와 같이, 어텐션 장단기 메모리(LSTM)모델(405) 및 컨볼 루션 신경망(CNN)모델(415)(예를 들면, RCNN 모델)을 사용하여 시각 특징(410), 오디오 특징(420) 및 텍스트 특징(430)을 각각 추출한다.
어텐션 LSTM 모델(405)은 어텐션 메커니즘을 기반으로 하는 LSTM이고, 컨볼 루션 특징 계산, 특징 집계 등 동작을 수행할 수 있다. 어텐션 LSTM 모델(405)은 OCR인식, 안면 인식 및 특징 추출을 통해, 시각 정보(310)의 시각 특징(410)을 생성하고, ASR인식과 특징 추출을 통해, 오디오 정보(320)의 오디오 특징(420)을 생성한다.
CNN모델(415)은 미리 훈련된 언어 모델을 통해 워드 임베딩 벡터, 문자 임베딩 벡터를 추출할 수 있고, 텍스트를 엔티티 링크하여, 텍스트 중의 엔티티를 링크하고, 미리 훈련된 엔티티의 벡터 생성 모델을 통해 엔티티 임베딩 벡터를 획득하고, 다음 상기 임베딩 벡터를 융합한다. 이외에, CNN모델(415)은 위치 임베딩, 미리 훈련된 엔티티 임베딩 등 과정에 관한 것일 수 있고, 심층 신경망을 통해 저위도 의미 특징을 추출하여, 대응되는 텍스트 특징(430)을 획득한다. 예를 들면, 지식 베이스(125)를 기반으로, 텍스트 정보(333)에서 엔티티 집합(408)을 추출하고, 다음 CNN모델(415)은 텍스트 정보(333) 및 엔티티 집합(408)에 따라, 대응되는 텍스트 특징(430)을 추출한다. 특징 추출할 경우 지식 베이스를 기반으로 하는 텍스트 엔티티 링크를 도입하고, 텍스트 특징을 추출할 경우, 상기 링크된 엔티티를 고려한다. 따라서, 본 발명의 실시예는 분류할 비디오의 내용을 더 잘 이해할 수 있으므로, 더 정확한 주제 분류 결과를 획득할 수 있다.
다음으로, 블록(425)에서, 시각 특징(410), 오디오 특징(420) 및 텍스트 특징(430)을 융합하여, 비디오의 융합 특징(435)을 획득한다. 예를 들면, 특징 융합 과정은 복수의 모달리티 정보를 결합하고, 모달리티 사이의 연관성을 판단하고, 멀티 모달리티의 특징 정보에 대해 차원 감소 및 처리를 수행할 수 있다.
계속해서 도4를 참조하면, 엔티티 집합(408)에서 제일 핵심적인 핵심 엔티티(445)를 추출하고, 지식 베이스(125)에 따라, 핵심 엔티티(445)에 대응하는 주제 유형을 결정한다. 예를 들면, 엔티티 링크를 통해 핵심 엔티티(445)를 획득하고, 비디오 지식 그래프에 따라, 소속된 주제 유형을 획득한다. 예를 들면, 텍스트 "<무간도>클래식 장면, 한침은 그의 손에 죽을 줄은 꿈에도 생각지 못했을 것이다"에서 추출한 핵심 엔티티(445)는 "무간도"이고, 핵심 엔티티가 속하는 주제 유형은 "영화"이다.
그리고, 블록(465)에서, 핵심 엔티티(445)의 임베딩 벡터 및 대응되는 주제 유형의 임베딩 벡터를 사용하여 융합 특징(435)(예를 들면, 융합은 h로 표시함)에 대해 어텐션 처리를 수행하여, 제1 특징(V1) 및 제2 특징(V2)을 획득하고, 블록475와 같이, V1 및 V2를 합병 또는 융합한다. 획득된 제1 특징(V1) 및 제2 특징(V2)에 따라, 계층 분류 기술을 사용하여 다단계 주제 분류 결과(485)(예를 들면, 1단계 주제 분류 결과, 2단계 주제 분류 결과 등)를 획득할 수 있고, 한정된 태그의 분류 방식을 사용할 수 있다.
도5는 본 발명 실시예에 따른 핵심 엔티티 및 그에 대응하는 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하기 위한 개략도(500)를 나타낸다. h1, h2...hn는 융합 특징의 벡터의 각 부분을 표시하고, CEemb는 핵심 엔티티의 벡터를 표시하고, ECemb는 핵심 엔티티가 속하는 주제 유형의 벡터를 표시한다. 510은 핵심 엔티티의 벡터CEemb를 사용하여 융합 특징h에 대해 어텐션 처리를 수행하여, 대응되는 제1 특징(V1)을 생성하는 단계를 나타낸다. 520은 핵심 엔티티가 속하는 주제 유형의 벡터ECemb를 사용하여 융합 특징h에 대해 어텐션 처리를 수행하여, 대응되는 제2 특징(V2)을 생성하는 것을 나타낸다. 다음 530에서, 계층 분류를 수행하여 대응되는 계층 주제 분류 결과를 획득한다. 다음 공식(1)-(3)은 어텐션 처리의 계산 공식을 나타낸다.
Figure 112021016221054-pat00001
,
Figure 112021016221054-pat00002
(1)
Figure 112021016221054-pat00003
(2)
Figure 112021016221054-pat00004
(3)
여기서, αij
Figure 112021016221054-pat00005
는 핵심 엔티티 또는 주제 유형이 융합 특징 각 부분에 대한 가중치를 표시하고, i=0일 경우 핵심 엔티티의 가중치를 표시하고, i=1일 경우 핵심 엔티티의 주제 유형의 가중치를 표시하며, j는 융합 특징 h 중의 제j 번째 부분을 표시한다.
따라서, 핵심 엔티티 및 그 주제 유형을 사용하여 융합 특징에 대해 어텐션 처리를 수행하여, 주제 분류의 정확성을 더 향상시킬 수 있다.
도6은 본 발명 실시예에 따른 엔티티 벡터 생성 모듈을 훈련하기 위한 개략도(600)를 나타낸다. 도6에 도시한 바와 같이, 각 엔티티에 대하여, 단독으로 된 모델을 각각 구축하고, 포지티브 예시와 네거티브 예시의 비율은 미리 설정할 수 있다. 예를 들면, 1:10로 설정할 수 있다.
블록610은 엔티티의 포지티브 예시의 구축 과정을 나타낸다. 지식 베이스(125)에서 엔티티의 텍스트 설명(611)(예를 들면, 텍스트 요약과 설명 정보 등) 및 엔티티의 관련 비디오(612)를 획득한다. 다음 word2vec를 통해, 텍스트 벡터(613)를 획득하고, video2vec를 통해 비디오 벡터(614)를 획득하며, 텍스트 벡터(613)와 비디오 벡터(614)를 융합하여, 포지티브 예시 벡터(615)를 획득한다.
블록620은 엔티티의 네거티브 예시의 구축 과정을 나타낸다. 지식 베이스(125)의 모든 엔티티의 텍스트 요약 정보와 설명의 단어 빈도 정보를 통계하고, 대역 주파수 랜덤 샘플링을 통해, 네거티브 예시의 어휘 시퀀스(621)를 획득하고, 지식 베이스(125)에서 비디오(622)를 랜덤 샘플링한다. 다음 word2vec를 통해 텍스트 벡터(623)를 획득하고, video2vec를 통해 비디오 벡터(624)를 획득하고, 텍스트 벡터(623)와 비디오 벡터(624)를 융합하여, 네거티브 예시 벡터(625)를 획득한다.
그리고, 신경망을 통해 벡터를 처리(예를 들면, 차원 감소 둥)하고, sigmod에 입력하고, 최종 파라미터를 엔티티 벡터로 결정한다. 이런 방식을 통해, 포지티브 예시5와 네거티브 예시를 사용하여 엔티티의 벡터 생성 모델을 훈련할 수 있다. 생성된 엔티티 벡터 생성 모델은 사용될 경우 엔티티에 대응하는 엔티티 벡터를 생성하여, 주제 분류의 정확성을 향상시킨다.
도7은 본 발명 실시예에 따른 멀티 모달리티를 기반으로 하는 주제 분류 장치(700)의 블록도를 나타낸다. 도7에 도시한 바와 같이, 장치(700)는, 멀티 모달리티 정보 획득 모듈(710), 엔티티 링크 모듈(720), 텍스트 특징 추출 모듈(730), 및 주제 분류 결정 모듈(740)을 포함한다. 멀티 모달리티 정보 획득 모듈(710)은 대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성되고, 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함한다. 엔티티 링크 모듈(720)은 미리 구축된 지식 베이스를 기반으로, 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된다. 텍스트 특징 추출 모듈(730)은 텍스트 정보와 엔티티 집합을 기반으로, 대상의 텍스트 특징을 추출하도록 구성된다. 주제 분류 결정 모듈(740)은 대상의 텍스트 특징과 비 텍스트 특징을 기반으로, 대상의 주제 분류를 결정하도록 구성되고, 비 텍스트 특징은 비 텍스트 정보를 기반으로 추출된다.
일부 실시예에서, 멀티 모달리티 정보 획득 모듈(710)은, 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하도록 구성된 이미지 텍스트 획득 모듈; 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하도록 구성된 음성 텍스트 획득 모듈; 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하도록 구성된 문자 텍스트 획득 모듈; 및 이미지 텍스트, 음성 텍스트 및 문자 텍스트를 융합하여, 텍스트 정보를 획득하도록 구성된 텍스트 융합 모듈; 을 포함한다.
일부 실시예에서, 주제 분류 결정 모듈(740)은, 시각 정보와 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하도록 구성된 특징 추출 모듈; 시각 특징, 오디오 특징 및 텍스트 특징을 융합하여, 대상의 융합 특징을 획득하도록 구성된 융합 특징 획득 모듈; 및 융합 특징을 기반으로, 대상의 다단계 주제 분류를 결정하도록 구성된 다단계 주제 분류 결정 모듈; 을 포함한다.
일부 실시예에서, 다단계 주제 분류 결정 모듈은, 엔티티 집합 중의 핵심 엔티티를 결정하도록 구성된 핵심 엔티티 결정 모듈; 및 지식 베이스를 기반으로, 핵심 엔티티에 대응하는 주제 유형을 결정하도록 구성된 주제 유형 결정 모듈; 을 포함한다.
일부 실시예에서, 다단계 주제 분류 결정 모듈은, 핵심 엔티티의 벡터를 사용하여 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하도록 구성된 제1 특징 획득 모듈; 주제 유형의 벡터를 사용하여 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하도록 구성된 제2 특징 획득 모듈; 및 제1 특징 및 제2 특징을 기반으로, 대상의 다단계 주제 분류를 획득하도록 구성된 다단계 주제 분류 획득 모듈; 을 더 포함한다.
일부 실시예에서, 장치(700)는, 각 엔티티에 대해, 지식 베이스 중의 엔티티의 텍스트 설명과 엔티티와 관련된 대상을 기반으로, 포지티브 예시 벡터를 획득하고; 랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하고; 미리 설정된 비율의 포지티브 예시 벡터와 네거티브 예시 벡터를 기반으로, 엔티티의 벡터 생성 모델을 훈련하도록 구성된 훈련 모듈; 을 더 포함한다.
일부 실시예에서, 훈련 모듈은, 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하도록 구성된 통계 모듈; 및 각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하도록 구성된 랜덤 선택 모듈; 을 포함한다.
일부 실시예에서, 장치(700)는, 텍스트 정보를 기반으로, 대상의 주제 추정을 결정하도록 구성된 주제 추정 모듈; 및 대상의 주제 분류와 주제 추정을 기반으로, 대상의 융합 주제를 결정하도록 구성된 융합 주제 결정 모듈; 을 더 포함한다.
본 발명은 또한 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 본 발명의 실시예의 방법 또는 과정을 수행한다.
도8은 본 발명의 실시예를 구현하기 위한 예시적인 기기(800)의 개략적인 블록도를 나타낸다. 도시한 바와 같이, 기기(800)는, 읽기 전용 메모리(ROM)(802)에 저장되어 있는 컴퓨터 프로그램 명령 또는 저장 유닛(808)에서 랜덤 엑세스 메모리(RAM)(803)에로 로딩된 컴퓨터 프로그램 명령에 따라, 각 적당한 동작 및 처리를 수행할 수 있는 중앙 처리 유닛(CPU)(801)을 포함한다. RAM(803)에서, 기기(800)의 동작에 수요되는 각 프로그램 및 데이터를 더 저장할 수 있다. CPU (801), ROM (802) 및 RAM (803)은 버스(804)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(805)도 버스(804)에 연결된다.
I/O 인터페이스(805)에 연결되는 기기(800) 중의 복수의 부품은, 키보드, 마우스 등과 같은 입력 유닛(806); 각 유형의 디스플레이, 스피커 등과 같은 출력 유닛(807); 자기 디스크, 광 디스크 등과 같은 저장 유닛(808); 및 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(809); 을 포함한다. 통신 유닛(809)은 기기(800)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 텔레콤 네트워크를 통해, 기타 기기와 정보/테이터를 교환하는 것을 허락한다.
처리 유닛(801)은 상기 설명한 각 방법과 과정을 수행한다. 예를 들면, 일부 실시예에서, 당해 방법과 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(808)과 같은 기계 판독 가능 메체에 포함되어 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)을 통해 기기(800)에 로드 및/또는 설치된다. 컴퓨터 프로그램이 RAM(803)에 로드되고 CPU(801)에 의해 수행될 경우, 상기 설명한 방법 중의 하나 또는 복수의 동작 또는 단계를 수행할 수 있다. 또한, 기타 실시예에서, CPU(801)는 기타 임의의 적당한 방식(예를 들면, 펌웨어를 사용함)을 통해 본 발명 실시예의 각 방법을 수행하도록 구성된다.
본 명세서에서 설명한 기능은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 부품에 의해 수행된다. 예를 들면, 무제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부품은, 필드 프로그램 가능 게이트 어레이 (FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD) 등이 있다.
본 발명의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의 조합으로 프로그래밍할 수 있다. 당해 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우, 흐름도 및/또는 블록도에서 규정한 기능/동작이 수행된다. 프로그램 코드는 완전히 기계에서 수행될 수 있고, 부분적으로 기계에서 수행될 수 있으며, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행되고, 부분적으로 원적 기계에서 수행되거나, 완전히 원격 기계 또는 서버에서 수행될 수 있다.
본 발명의 앞뒤 설명에서, 기계 판독 가능 매체는 유형 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기에서 사용하거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는, 하나 또는 복수의 전선을 기반으로 한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의의 적합한 조합을 포함한다.
본 명세서에서 설명한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체에서 각 계산/처리 기기에 다운할 수 있고, 또는 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선 네트워크와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기에 다운할 수 있다. 네트워크는, 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 스위치, 케이트웨이 컴퓨터 및/또는 에지 서버를 포함한다. 각 계산/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 당해 컴퓨터 판독 가능 프로그램 명령을 전달하여, 각 계산/처리 기기 중의 컴퓨터 판독 가능 저장 매체에 저장하도록 제공한다.
이외에, 특정 순서로 각 동작 또는 단계를 설명하였으나, 이런 동작 또는 단계를 나타낸 특정 순서 또는 순차 순서로 수행할 것을 요구하거나, 모든 도면에서 나타난 동작 또는 단계를 수행하고, 원하는 결과를 획득하도록 요구한다고 이해해야 한다. 일정한 환경에서, 멀티 태스크와 병렬 처리는 유리한 것이다. 동시에, 상기 설명은 몇 가지의 구체적인 구현 세부를 포함하지만, 본 발명 범위를 한정하는 것으로 이해해서는 안된다. 단독 실시예의 앞뒤 설명에서 설명한 일부 특징은 조합하여 개별 구현에 구현될 수 있다. 반대로, 개별적으로 구현된 앞뒤 설명에서 설명한 각 특징은 단독 또는 임의의 적합한 서브 조합의 방식으로 복수의 구현에 구현된다.
이미 구조 특징 및/또는 방법 논리 동작에 특정된 언어로 본 발명의 실시예를 설명하였으나, 첨부된 청구범위에서 한정된 주제는 상기 설명의 특정 특징 또는 동작에 한정되지 않는다는 점을 이해해야 한다. 반대로, 상기 특정 특징과 동작은 청구범위를 구현하는 예시 형식일 뿐이다.

Claims (19)

  1. 멀티 모달리티를 기반으로 하는 주제 분류 방법에 있어서,
    대상의 텍스트 정보와 비 텍스트 정보를 획득하는 단계 - 상기 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ;
    미리 구축된 지식 베이스를 기반으로, 상기 텍스트 정보에 관한 하나 또는 복수의 엔티티를 링크하고, 상기 텍스트 정보에 엔티티 링크를 수행하는 것을 통해 상기 텍스트 정보 중의 상기 대상과 관련되는 정보를 추출하여 상기 텍스트 정보 중의 엔티티 집합을 결정하는 단계;
    상기 텍스트 정보와 상기 엔티티 집합을 기반으로, 상기 대상의 텍스트 특징을 추출하는 단계; 및
    상기 대상의 상기 텍스트 특징과 비 텍스트 특징을 기반으로, 상기 대상의 주제 분류를 결정하는 단계 - 상기 비 텍스트 특징은 상기 비 텍스트 정보를 기반으로 추출됨 - ; 를 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  2. 제1항에 있어서,
    상기 대상의 상기 텍스트 정보를 획득하는 단계는,
    상기 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하는 단계;
    상기 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하는 단계;
    상기 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하는 단계; 및
    상기 이미지 텍스트, 상기 음성 텍스트 및 상기 문자 텍스트를 융합하여, 상기 텍스트 정보를 획득하는 단계; 를 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  3. 제1항에 있어서,
    상기 대상의 주제 분류를 결정하는 단계는,
    상기 시각 정보와 상기 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하는 단계;
    상기 시각 특징, 상기 오디오 특징 및 상기 텍스트 특징을 융합하여, 상기 대상의 융합 특징을 획득하는 단계; 및
    상기 융합 특징을 기반으로, 상기 대상의 다단계 주제 분류를 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  4. 제3항에 있어서,
    상기 대상의 다단계 주제 분류를 결정하는 단계는,
    상기 엔티티 집합 중의 핵심 엔티티를 결정하는 단계; 및
    상기 지식 베이스를 기반으로, 상기 핵심 엔티티에 대응하는 주제 유형을 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  5. 제4항에 있어서,
    상기 대상의 다단계 주제 분류를 결정하는 단계는,
    상기 핵심 엔티티의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하는 단계;
    상기 주제 유형의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하는 단계; 및
    상기 제1 특징 및 상기 제2 특징을 기반으로, 상기 대상의 상기 다단계 주제 분류를 획득하는 단계; 를 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  6. 제1항에 있어서,
    각 엔티티에 대해,
    상기 지식 베이스 중의 상기 엔티티의 텍스트 설명과 상기 엔티티와 관련되는 대상을 기반으로, 포지티브 예시 벡터를 획득하는 단계;
    랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하는 단계; 및
    미리 설정된 비율의 상기 포지티브 예시 벡터와 상기 네거티브 예시 벡터를 기반으로, 상기 엔티티의 벡터 생성 모델을 훈련하는 단계; 를 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  7. 제6항에 있어서,
    상기 네거티브 예시 벡터를 획득하는 단계는,
    상기 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하는 단계; 및
    각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하는 단계; 를 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  8. 제1항에 있어서,
    상기 텍스트 정보를 기반으로, 상기 대상의 주제 추정을 결정하는 단계; 및
    상기 대상의 상기 주제 분류와 상기 주제 추정을 기반으로, 상기 대상의 융합 주제를 결정하는 단계; 를 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 방법.
  9. 멀티 모달리티를 기반으로 하는 주제 분류 장치에 있어서,
    대상의 텍스트 정보와 비 텍스트 정보를 획득하도록 구성된 멀티 모달리티 정보 획득 모듈 - 상기 비 텍스트 정보는 시각 정보와 오디오 정보 중의 적어도 하나를 포함함 - ;
    미리 구축된 지식 베이스를 기반으로, 상기 텍스트 정보에 관한 하나 또는 복수의 엔티티를 링크하고, 상기 텍스트 정보에 엔티티 링크를 수행하는 것을 통해 상기 텍스트 정보 중의 상기 대상과 관련되는 정보를 추출하여 상기 텍스트 정보 중의 엔티티 집합을 결정하도록 구성된 엔티티 링크 모듈;
    상기 텍스트 정보와 상기 엔티티 집합을 기반으로, 상기 대상의 텍스트 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및
    상기 대상의 상기 텍스트 특징과 비 텍스트 특징을 기반으로, 상기 대상의 주제 분류를 결정하도록 구성된 주제 분류 결정 모듈 - 상기 비 텍스트 특징은 상기 비 텍스트 정보를 기반으로 추출됨 - ; 을 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  10. 제9항에 있어서,
    상기 멀티 모달리티 정보 획득 모듈은,
    상기 시각 정보에 대한 광학 문자 인식을 기반으로, 이미지 텍스트를 획득하도록 구성된 이미지 텍스트 획득 모듈;
    상기 오디오 정보에 대한 자동 음성 인식을 기반으로, 음성 텍스트를 획득하도록 구성된 음성 텍스트 획득 모듈;
    상기 대상의 타이틀과 동영상 댓글 자막을 기반으로, 문자 텍스트를 획득하도록 구성된 문자 텍스트 획득 모듈; 및
    상기 이미지 텍스트, 상기 음성 텍스트 및 상기 문자 텍스트를 융합하여, 상기 텍스트 정보를 획득하도록 구성된 텍스트 융합 모듈; 을 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  11. 제9항에 있어서,
    상기 주제 분류 결정 모듈은,
    상기 시각 정보와 상기 오디오 정보를 기반으로, 어텐션 기반의 장단기 메모리 네트워크를 통해, 시각 특징과 오디오 특징을 추출하도록 구성된 특징 추출 모듈;
    상기 시각 특징, 상기 오디오 특징 및 상기 텍스트 특징을 융합하여, 상기 대상의 융합 특징을 획득하도록 구성된 융합 특징 획득 모듈; 및
    상기 융합 특징을 기반으로, 상기 대상의 다단계 주제 분류를 결정하도록 구성된 다단계 주제 분류 결정 모듈; 을 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  12. 제11항에 있어서,
    상기 다단계 주제 분류 결정 모듈은,
    상기 엔티티 집합 중의 핵심 엔티티를 결정하도록 구성된 핵심 엔티티 결정 모듈; 및
    상기 지식 베이스를 기반으로, 상기 핵심 엔티티에 대응하는 주제 유형을 결정하도록 구성된 주제 유형 결정 모듈; 을 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  13. 제12항에 있어서,
    상기 다단계 주제 분류 결정 모듈은,
    상기 핵심 엔티티의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제1 특징을 획득하도록 구성된 제1 특징 획득 모듈;
    상기 주제 유형의 벡터를 사용하여 상기 융합 특징을 가중 처리하는 것을 통해, 제2 특징을 획득하도록 구성된 제2 특징 획득 모듈; 및
    상기 제1 특징 및 상기 제2 특징을 기반으로, 상기 대상의 상기 다단계 주제 분류를 획득하도록 구성된 다단계 주제 분류 획득 모듈; 을 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  14. 제9항에 있어서,
    각 엔티티에 대해;
    상기 지식 베이스 중의 상기 엔티티의 텍스트 설명과 상기 엔티티와 관련되는 대상을 기반으로, 포지티브 예시 벡터를 획득하고;
    랜덤 샘플링된 텍스트와 랜덤 샘플링된 대상을 기반으로, 네거티브 예시 벡터를 획득하고;
    미리 설정된 비율의 상기 포지티브 예시 벡터와 상기 네거티브 예시 벡터를 기반으로, 상기 엔티티의 벡터 생성 모델을 훈련하도록 구성된 훈련 모듈; 을 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  15. 제14항에 있어서,
    상기 훈련 모듈은,
    상기 지식 베이스 중의 모든 엔티티의 텍스트 설명에서 단어의 단어 빈도를 통계하도록 구성된 통계 모듈; 및
    각 단어의 단어 빈도를 기반으로, 네거티브 예시로 사용되는 단어 시퀀스를 랜덤으로 선택하도록 구성된 랜덤 선택 모듈; 을 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  16. 제9항에 있어서,
    상기 텍스트 정보를 기반으로, 상기 대상의 주제 추정을 결정하도록 구성된 주제 추정 모듈; 및
    상기 대상의 상기 주제 분류와 상기 주제 추정을 기반으로, 상기 대상의 융합 주제를 결정하도록 구성된 융합 주제 결정 모듈; 을 더 포함하는,
    것을 특징으로 하는 멀티 모달리티를 기반으로 하는 주제 분류 장치.
  17. 전자 기기에 있어서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하기 위한 저장 장치; 를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 수행되어, 상기 전자 기기가 제1항 내지 제8항 중 어느 한 항의 방법을 구현하도록 하는,
    것을 특징으로 하는 전자 기기.
  18. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 프로그램이 프로세서에 의해 수행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  19. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210017976A 2020-02-14 2021-02-09 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 KR102455616B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010093770.0 2020-02-14
CN202010093770.0A CN111259215B (zh) 2020-02-14 2020-02-14 基于多模态的主题分类方法、装置、设备、以及存储介质

Publications (2)

Publication Number Publication Date
KR20210104571A KR20210104571A (ko) 2021-08-25
KR102455616B1 true KR102455616B1 (ko) 2022-10-17

Family

ID=70945613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210017976A KR102455616B1 (ko) 2020-02-14 2021-02-09 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11995117B2 (ko)
EP (1) EP3866026A1 (ko)
JP (1) JP7142737B2 (ko)
KR (1) KR102455616B1 (ko)
CN (1) CN111259215B (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN114157906B (zh) * 2020-09-07 2024-04-02 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112822506A (zh) * 2021-01-22 2021-05-18 百度在线网络技术(北京)有限公司 用于分析视频流的方法和装置
CN112749300B (zh) * 2021-01-22 2024-03-01 北京百度网讯科技有限公司 用于视频分类的方法、装置、设备、存储介质和程序产品
CN112863518B (zh) * 2021-01-29 2024-01-09 深圳前海微众银行股份有限公司 一种语音数据主题识别的方法及装置
CN113159010B (zh) * 2021-03-05 2022-07-22 北京百度网讯科技有限公司 视频分类方法、装置、设备和存储介质
CN113065520B (zh) * 2021-04-25 2024-08-09 江南大学 一种面向多模态数据的遥感图像分类方法
CN113204615B (zh) * 2021-04-29 2023-11-24 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN113094549A (zh) * 2021-06-10 2021-07-09 智者四海(北京)技术有限公司 一种视频分类方法、装置、电子设备和存储介质
US20230055636A1 (en) * 2021-08-03 2023-02-23 Baidu Usa Llc Transformer-based temporal detection in video
CN113408282B (zh) * 2021-08-06 2021-11-09 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN116028668B (zh) * 2021-10-27 2024-07-19 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备以及存储介质
CN113992944A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频编目方法、装置、设备、系统及介质
CN116150428B (zh) * 2021-11-16 2024-06-07 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
CN114238752B (zh) * 2021-11-30 2024-06-28 湖南大学 物品推荐方法、装置及存储介质
WO2023128432A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 상품을 인식하는 방법 및 전자 장치
KR20230102882A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114548096A (zh) * 2022-01-20 2022-05-27 钻技(上海)信息科技有限公司 一种商家信息获取方法、系统及可读存储介质
CN114638307A (zh) * 2022-03-21 2022-06-17 北京达佳互联信息技术有限公司 信息检测方法、装置、电子设备以及存储介质
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质
CN116186258A (zh) * 2022-12-31 2023-05-30 青岛海尔电冰箱有限公司 基于多模态知识图谱的文本分类方法、设备及存储介质
CN115797943B (zh) * 2023-02-08 2023-05-05 广州数说故事信息科技有限公司 一种基于多模态的视频文本内容提取方法、系统及存储介质
CN117150436B (zh) * 2023-10-31 2024-01-30 上海大智慧财汇数据科技有限公司 多模态自适应融合的主题识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018197639A1 (en) * 2017-04-26 2018-11-01 Piksel, Inc Multimedia stream analysis and retrieval

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
JP2005062971A (ja) * 2003-08-19 2005-03-10 Pioneer Electronic Corp コンテンツ検索システム
JP5065813B2 (ja) 2007-09-03 2012-11-07 株式会社東芝 動画像処理装置及び方法
US10467289B2 (en) * 2011-08-02 2019-11-05 Comcast Cable Communications, Llc Segmentation of video according to narrative theme
US20140328570A1 (en) 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
CN102831234B (zh) * 2012-08-31 2015-04-22 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
MX349609B (es) * 2013-09-13 2017-08-04 Arris Entpr Llc Segmentacion de contenido de video basado en contenido.
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
JP6704680B2 (ja) 2015-05-19 2020-06-03 シャープ株式会社 表示装置、情報処理プログラムおよび情報処理方法
US10521732B2 (en) * 2015-12-28 2019-12-31 Facebook, Inc. Systems and methods for content presentation
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
US10169453B2 (en) * 2016-03-28 2019-01-01 Microsoft Technology Licensing, Llc Automatic document summarization using search engine intelligence
CN105843931A (zh) * 2016-03-30 2016-08-10 广州酷狗计算机科技有限公司 一种进行分类的方法和装置
US9569729B1 (en) * 2016-07-20 2017-02-14 Chenope, Inc. Analytical system and method for assessing certain characteristics of organizations
US10282462B2 (en) * 2016-10-31 2019-05-07 Walmart Apollo, Llc Systems, method, and non-transitory computer-readable storage media for multi-modal product classification
CN107220386B (zh) * 2017-06-29 2020-10-02 北京百度网讯科技有限公司 信息推送方法和装置
CN107545033B (zh) * 2017-07-24 2020-12-01 清华大学 一种基于表示学习的知识库实体分类的计算方法
US11115666B2 (en) * 2017-08-03 2021-09-07 At&T Intellectual Property I, L.P. Semantic video encoding
JP7077141B2 (ja) 2018-05-28 2022-05-30 シャープ株式会社 画像記録装置、画像記録方法およびプログラム
CN109933688A (zh) * 2019-02-13 2019-06-25 北京百度网讯科技有限公司 确定视频标注信息的方法、装置、设备和计算机存储介质
CN110083716A (zh) * 2019-05-07 2019-08-02 青海大学 基于藏文的多模态情感计算方法及系统
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
JP2021081930A (ja) 2019-11-18 2021-05-27 日本放送協会 学習装置、情報分類装置、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018197639A1 (en) * 2017-04-26 2018-11-01 Piksel, Inc Multimedia stream analysis and retrieval

Also Published As

Publication number Publication date
KR20210104571A (ko) 2021-08-25
CN111259215B (zh) 2023-06-27
US20210256051A1 (en) 2021-08-19
US11995117B2 (en) 2024-05-28
JP2021128774A (ja) 2021-09-02
JP7142737B2 (ja) 2022-09-27
EP3866026A1 (en) 2021-08-18
CN111259215A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN109117777B (zh) 生成信息的方法和装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN111324769B (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN106973244B (zh) 使用弱监督数据自动生成图像字幕的方法和系统
US8930288B2 (en) Learning tags for video annotation using latent subtags
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US20200320116A1 (en) Providing a summary of a multimedia document in a session
CN106919652B (zh) 基于多源多视角直推式学习的短视频自动标注方法与系统
CN110928994A (zh) 相似案例检索方法、相似案例检索装置和电子设备
CN111866610B (zh) 用于生成信息的方法和装置
CN102663015A (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN110414004A (zh) 一种核心信息提取的方法和系统
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN114860992A (zh) 视频的标题生成方法、装置、设备及存储介质
CN113569091B (zh) 视频数据的处理方法、装置
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN115048515A (zh) 文档分类方法、装置、设备和存储介质
Tapu et al. TV news retrieval based on story segmentation and concept association
Wang et al. Video description with integrated visual and textual information
KR102685135B1 (ko) 영상 편집 자동화 시스템
WO2022213864A1 (zh) 一种语料标注方法、装置及相关设备
Preethi et al. Video Captioning using Pre-Trained CNN and LSTM

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant