KR102527589B1 - 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체 - Google Patents

여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체 Download PDF

Info

Publication number
KR102527589B1
KR102527589B1 KR1020210027325A KR20210027325A KR102527589B1 KR 102527589 B1 KR102527589 B1 KR 102527589B1 KR 1020210027325 A KR1020210027325 A KR 1020210027325A KR 20210027325 A KR20210027325 A KR 20210027325A KR 102527589 B1 KR102527589 B1 KR 102527589B1
Authority
KR
South Korea
Prior art keywords
word
video
recognition
text
probability
Prior art date
Application number
KR1020210027325A
Other languages
English (en)
Other versions
KR20220044074A (ko
Inventor
원쥔 장
챵 황
쥔 팡
쉬 판
윈충 리
저 양
싸이딩 훙
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220044074A publication Critical patent/KR20220044074A/ko
Application granted granted Critical
Publication of KR102527589B1 publication Critical patent/KR102527589B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/43Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

본 공개는 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버 및 매체를 공개하며, 인공지능 기술분야에 관한 것이며, 구체적으로 화상 인식, 자연언어 처리에 관한 것으로, 클라우드 플랫폼에 이용될 수 있다. 비디오 여론 획득 방법에 있어서, 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하는 단계; 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키는 단계로서, 그중 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하고, 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하는 단계; 및 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하는 단계를 포함한다.

Description

여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체{PUBLIC OPINION ACQUISITION AND WORD VISCOSITY MODEL TRAINING METHODS AND DEVICES, SERVER, AND MEDIUM}
본 공개는 인공지능 기술분야에 관한 것이며, 구체적으로 화상 인식, 자연언어 처리에 관한 것이며, 특히 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체에 관한 것이다.
종래의 여론 모니터링 시스템은 주로 각 미디어 사이트, SNS, 이동단으로부터 텍스트 유형의 여론 정보를 수집한다. 그러나 기술의 발전에 따라 점점 더 많은 여론 정보는 비디오와 같은 리치 미디어 방식으로 배포되고 전파된다. 종래의 여론 제품도 비디오 데이터에 대한 인식이 비디오 제목, 비디오 설명 등과 같은 그 주변 텍스트를 토대로 인식하며, 유저가 입력한 키워드를 인식 정보와 매칭시켜 리콜하는 것으로서, 비디오 콘텐츠 자체에 대한 이해가 결여되어 있다. 그리고, 기존의 여론 제품은 비록 텍스트 유형의 인식과 매칭을 구현할 수 있으나, 그 텍스트 유형의 인식과 매칭은 일반적으로 비교적 단순하여, 설명 편차가 발생하기 쉽다. 그리고 비디오 데이터에 대한 정보 발굴도 충분치 않아, 최종 여론 예측의 정밀도가 그다지 정확하지 않을 수 있으며, 비디오에서 언급되고 전시된 콘텐츠를 리콜할 수 없어, 시스템의 리콜률이 저하될 수 있다.
이 부분에서 설명한 방법은 이전에 이미 구상되었거나 이용된 방법이 아닐 수 있다. 다른 설명이 없는 한, 이 부분에서 설명한 그 어떤 방법도 이 부분에 포함되었다는 이유만으로 종래기술로 인정된다고 가정해서는 안된다. 이와 유사하게, 다른 설명이 없는 한, 이 부분에서 언급된 과제는 임의의 종래기술에서 이미 보편적으로 인정된 것으로 보아서는 안된다.
본 발명은 전술한 상황을 감안하여 이루어진 발명이다.
본 공개의 일 측면은 비디오 여론 획득 방법을 제공한다. 상기 비디오 여론 획득 방법은, 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하는 단계; 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키는 단계로서, 그중 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하며, 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하는 단계; 및 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하는 단계를 포함한다.
본 공개의 다른 측면은 단어 점도 모델의 훈련 방법을 제공한다. 상기 단어 점도 모델의 훈련 방법은, 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계; 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계; 및 구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하는 단계를 포함한다.
본 공개의 또 다른 측면은 비디오 여론 획득 기기를 제공한다. 상기 비디오 여론 획득 기기는 수신 유닛, 매칭 유닛과 결정 유닛을 포함하며, 상기 수신 유닛은 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하도록 구성되고; 상기 매칭 유닛은 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키도록 구성되며, 그중 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하고, 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하며; 상기 결정 유닛은 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하도록 구성된다.
본 공개의 또 다른 측면은 단어 점도 모델의 훈련 기기를 제공한다. 상기 단어 점도 모델의 훈련 기기는 샘플링 유닛, 훈련 유닛과 응답 유닛을 포함하며, 상기 샘플링 유닛은 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하도록 구성되고; 상기 훈련 유닛은 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하도록 구성되며; 상기 응답 유닛은 구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하도록 구성된다.
본 공개의 또 다른 측면은 서버를 제공한다. 상기 서버는 프로세서; 및 프로그램이 저장된 메모리를 포함하며, 당해 프로그램은 명령을 포함하고, 당해 명령은 프로세서에 의해 수행될 때 프로세서로 하여금 본 공개에 따른 비디오 여론 획득 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 프로그램이 저장된 컴퓨터 판독가능 저장매체를 제공한다. 당해 프로그램은 명령을 포함하고, 당해 명령은 서버의 프로세서에 의해 수행될 때 서버로 하여금 본 공개에 따른 비디오 여론 획득 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령은 적어도 하나의 프로세서에 의해 수행될 때 본 공개에 따른 비디오 여론 획득 방법을 구현한다.
본 공개의 또 다른 측면은 서버를 제공한다. 상기 서버는 프로세서; 및 프로그램이 저장된 메모리를 포함하고, 당해 프로그램은 명령을 포함하며, 당해 명령은 프로세서에 의해 수행될 때 프로세서로 하여금 본 공개에 따른 단어 점도 모델의 훈련 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 프로그램이 저장된 컴퓨터 판독가능 저장매체를 제공한다. 당해 프로그램은 명령을 포함하고, 당해 명령은 서버의 프로세서에 의해 수행될 때 서버로 하여금 본 공개에 따른 단어 점도 모델의 훈련 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령은 적어도 하나의 프로세서에 의해 수행될 때 본 공개에 따른 단어 점도 모델의 훈련 방법을 구현한다.
본 공개의 일 측면에 따르면, 당해 비디오 여론 획득 방법은 텍스트 정보를 미세 세분성으로 인식하여 텍스트 인식의 정확성을 향상시킬 수 있다.
후술되는 실시예에 따르면, 본 공개의 이들 및 다른 측면은 명료하며, 후술되는 실시예를 참고하여 상세하게 설명된다.
도면은 실시예를 예시적으로 나타내고 명세서의 일부를 구성하며, 명세서의 문자 기재와 함께 실시예의 예시적 실시형태를 해석한다. 보여준 실시예는 예시의 목적으로만 사용되고, 청구항의 범위를 한정하지 않는다. 모든 도면에서 동일한 부호는 유사하지만 반드시 동일하지는 않은 요소를 가리킨다.
도 1은 본 공개의 실시예에 따른, 본 명세서에서 설명되는 각종 방법이 실시될 수 있는 예시적 시스템의 개략도를 나타낸다.
도 2는 본 공개의 실시예에 따른 비디오 여론 획득 방법의 흐름도를 나타낸다.
도 3은 본 공개의 실시예에 따른 단어 점도 모델의 훈련 방법의 흐름도를 나타낸다.
도 4는 본 공개의 실시예에 따른 비디오 여론 획득 기기의 구성 블록도를 나타낸다.
도 5는 본 공개의 실시예에 따른 단어 점도 모델의 훈련 기기의 구성 블록도를 나타낸다.
도 6은 본 공개의 실시예를 구현할 수 있는 예시적 서버와 클라이언트의 구성 블록도를 나타낸다.
본 공개에서는 별도의 설명이 없는 한, “제1”, “제2” 등의 용어를 이용하여 각종 요소를 설명하는 것은 이들 요소의 위치 관계, 시간순서 관계 또는 중요성 관계를 한정하는 것을 의도하지 않는다. 이러한 용어는 하나의 소자를 다른 소자와 구분하기 위할 뿐이다. 일부 예시에서 제1 요소와 제2 요소는 당해 요소의 동일 구현예를 지칭할 수 있으며, 일부 경우에 이들은 문맥상 서로 다른 구현예를 지칭할 수도 있다.
본 공개에서, 각종 상기 예시에 대한 설명에서 사용된 용어는 특정 예시를 설명하기 위한 목적일 뿐, 한정하는 것을 의도하지 않는다. 문맥상 별도로 명백히 설명하지 않은 한, 요소의 수를 특별히 한정하지 않으면 당해 요소는 하나 또는 다수일 수 있다. 또한, 본 공개에서 사용된 용어 “및/또는”은 나열된 항목 중의 임의의 하나 및 모든 가능한 조합 방식을 포함한다.
근래에 쇼트 클립 미디어 플랫폼의 유저 규모가 대폭 증가함에 따라, 대량의 네트워크 여론이 쇼트 클립 방식으로 발전되어 전파되고 있으며, 쇼트 클립 미디어에 대한 여론 모니터링이 여론 제품에 대해 점점 중요해지고 있다. 비디오 여론에 대한 모니터링과 분석 능력을 통해, 비디오 콘텐츠를 해석하여 인식함으로써, 고객이 쇼트 클립 여론 정보와 발전 추세를 신속하게 파악하는데 도움을 주어 비디오 여론 모니터링에 대한 고객의 수요를 만족시킨다.
이하, 도면을 결합하여 본 공개의 실시예를 상세히 설명한다.
도 1은 본 공개의 실시예에 따른, 본 명세서에서 설명되는 각종 방법과 장치가 실시될 수 있는 예시적 시스템(100)의 개략도를 나타낸다. 도 1을 참고하면, 당해 시스템(100)은 하나 또는 다수의 클라이언트 기기(101, 102, 103, 104, 105, 106), 서버(120) 및 하나 또는 다수의 클라이언트 기기를 서버(120)에 커플링하는 하나 또는 다수의 통신 네트워크(110)를 포함한다. 클라이언트 기기(101, 102, 103, 104, 105, 106)는 하나 또는 다수의 응용 프로그램을 수행하도록 구성될 수 있다.
본 공개의 실시예에서, 서버(120)는 비디오 여론을 획득할 수 있도록 하는 방법의 하나 또는 다수의 서비스 또는 소프트웨어 어플리케이션을 작동시킬 수 있다.
어떤 실시예에서, 서버(120)는 비 가상 환경과 가상 환경을 포함할 수 있는 다른 서비스 또는 소프트웨어 어플리케이션을 제공할 수도 있다. 어떤 실시예에서, 이들 서비스는 web 기반 서비스 또는 클라우드 서비스로서 제공될 수 있으며, 예를 들어 서비스형 소프트웨어(SaaS) 모델에서 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)의 유저에게 제공될 수 있다.
도 1에 나타낸 구성(configure)에서 서버(120)는 서버(120)가 수행하는 기능을 구현하는 하나 또는 다수의 컴포넌트를 포함할 수 있다. 이들 컴포넌트는 하나 또는 다수의 프로세서가 수행할 수 있는 소프트웨어 컴포넌트, 하드웨어 컴포넌트 또는 이들의 조합을 포함할 수 있다. 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)를 조작하는 유저는 하나 또는 다수의 클라이언트의 응용 프로그램을 순차적으로 이용하여 서버(120)와 인터랙티브를 진행함으로써, 이들 컴포넌트가 제공하는 서비스를 이용할 수 있다. 시스템은 다양하게 구성될 수 있으며, 시스템(100)과 다를 수 있음을 이해해야 한다. 따라서, 도 1은 본 명세서에서 설명되는 각종 방법을 실시하기 위한 시스템의 하나의 예시이며, 한정하는 것을 의도하지 않는다.
유저는 클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)를 이용하여 비디오 여론 획득 요청 및/또는 단어 점도 모델의 훈련을 개시할 수 있다. 클라이언트 기기는 클라이언트 기기의 유저가 클라이언트 기기와 인터랙티브를 진행할 수 있는 인터페이스를 제공할 수 있다. 클라이언트 기기는 당해 인터페이스를 통해 유저에게 정보를 출력할 수도 있다. 도 1에는 6가지 클라이언트 기기만 도시하였으나, 본 분야의 통상의 기술자는 본 공개가 임의의 수의 클라이언트 기기를 지원할 수 있음을 이해할 수 있다.
클라이언트 기기(101, 102, 103, 104, 105 및/또는 106)는, 예를 들어 휴대형 핸드헬드 기기, 범용 컴퓨터(예컨대 개인 컴퓨터와 랩톱 컴퓨터), 워크벤치 컴퓨터, 웨어러블 기기, 게임 시스템, 신(thin) 클라이언트, 각종 메시지 송수신 기기, 센서 또는 그밖의 다른 감지 기기 등과 같은 다양한 유형의 컴퓨팅 시스템을 포함할 수 있다. 이들 컴퓨팅 기기는 다양한 유형과 버전의 소프트웨어 응용 프로그램과 운영 시스템, 예를 들어 Microsoft Windows, Apple iOS, UNIX 계열의 운영 시스템, Linux 또는 Linux 계열의 운영 시스템(예를 들어 Google Chrome OS)을 작동시키거나; 또는 다양한 이동 운영 시스템, 예를 들어 Microsoft Windows Mobile OS, iOS, Windows Phone, Android를 포함할 수 있다. 휴대형 핸드헬드 기기는 셀룰러 폰, 스마트 폰, 태블릿 컴퓨터, 개인 정보 단말기(PDA) 등을 포함할 수 있다. 웨어러블 기기는 머리 착용형 디스플레이와 그밖의 다른 기기를 포함할 수 있다. 게임 시스템은 다양한 핸드헬드형 게임 기기, 인터넷을 지원하는 게임 기기 등을 포함할 수 있다. 클라이언트 기기는 서로 다른 각종 응용 프로그램, 예를 들어 Internet과 관련된 다양한 응용 프로그램, 통신 응용 프로그램(예를 들어 전자메일 응용 프로그램), 단문 메시지 서비스(SMS) 응용 프로그램을 실행시킬 수 있으며, 다양한 통신 프로토콜을 이용할 수 있다.
네트워크(110)는 본 분야의 통상의 기술자에게 익숙한 임의의 유형의 네트워크일 수 있으며, 이용 가능한 다양한 프로토콜 중의 어느 하나(TCP/IP, SNA, IPX 등을 포함하나 이에 한정되지 않는다)를 이용하여 데이터 통신을 지원할 수 있다. 예시만으로서, 하나 또는 다수의 네트워크(110)는 근거리 통신망(LAN), 이더넷 기반의 네트워크, 토큰 링, 광대역 통신망(WAN), 인터넷, 가상 네트워크, 가상 사설 네트워크(VPN), 인트라넷, 엑스트라넷, 공중 교환 전화망(PSTN), 적외선 네트워크, 무선 네트워크(예를 들어 블루투스, WIFI) 및/또는 이들 및/또는 그밖의 다른 네트워크의 임의의 조합일 수 있다.
서버(120)는 하나 또는 다수의 범용 컴퓨터, 전용 서버 컴퓨터(예를 들어 PC(개인 컴퓨터) 서버, UNIX 서버, 중간 사양의 서버), 블레이드 서버, 대형 컴퓨터, 서버 클러스터 또는 임의의 그밖의 다른 적절한 배치 및/또는 조합을 포함할 수 있다. 서버(120)는 가상 운영 시스템을 작동시키는 하나 또는 다수의 가상 컴퓨터, 또는 가상화 관련 그밖의 다른 컴퓨팅 아키텍처(예를 들어 가상화 되어 서버의 가상 저장 기기를 유지보수하는 로직 저장 기기의 하나 또는 다수의 유연 풀)를 포함할 수 있다. 각종 실시예에서, 서버(120)는 후술되는 기능을 제공하는 하나 또는 다수의 서비스 또는 소프트웨어 어플리케이션을 작동시킬 수 있다.
서버(120) 중의 컴퓨텅 시스템은 상기 임의의 운영 시스템 및 임의의 상업적으로 이용할 수 있는 서버 운영 시스템을 포함하는 하나 또는 다수의 운영 시스템을 작동시킬 수 있다. 서버(120)는 부가적 서버의 응용 프로그램 및/또는 중간계층 응용 프로그램 중의 어느 하나를 작동시킬 수도 있으며, HTTP 서버, FTP 서버, CGI 서버, JAVA 서버, 데이터베이스 서버 등을 포함할 수 있다.
일부 실시형태에서, 서버(120)는 하나 또는 다수의 응용 프로그램을 포함하여, 클라이언트 기기(101, 102, 103, 104, 105, 106)의 유저로부터 수신한 데이터 피드 및/또는 이벤트 갱신을 분석 및 병합할 수 있다. 서버(120)는 하나 또는 다수의 응용 프로그램을 포함하여, 클라이언트 기기(101, 102, 103, 104, 105, 106)의 하나 또는 다수의 표시 기기를 통해 데이터 피드 및/또는 실시간 이벤트를 표시할 수도 있다.
시스템(100)은 하나 또는 다수의 데이터베이스(130)를 포함할 수도 있다. 어떤 실시예에서, 이들 데이터베이스는 데이터와 그밖의 다른 정보를 저장할 수 있다. 예를 들어, 데이터베이스(130) 중의 하나 또는 다수는 예컨대 오디오 파일과 비디오 파일과 같은 정보를 저장할 수 있다. 데이터 저장소(130)는 다양한 위치에 상주할 수 있다. 예를 들어, 서버(120)에서 사용되는 데이터 저장소는 서버(120)의 로컬에 위치할 수 있거나, 또는 서버(120)로부터 이격될 수 있으며 또한 네트워크 또는 전문적인 접속을 통해 서버(120)와 통신할 수 있다. 데이터 저장소(130)는 다양한 유형일 수 있다. 어떤 실시예에서, 서버(120)에서 사용되는 데이터 저장소는 예를 들어 관계 데이터베이스와 같은 데이터베이스일 수 있다. 이들 데이터베이스 중의 하나 또는 다수는 명령에 응답하여 데이터베이스 및 데이터베이스로부터의 데이터를 저장, 업데이트 및 검색할 수 있다.
어떤 실시예에서, 데이터베이스(130) 중의 하나 또는 다수는 응용 프로그램에 사용되어 응용 프로그램 데이터를 저장할 수도 있다. 응용 프로그램에 사용되는 데이터베이스는 예를 들어 키 저장소, 객체 저장소 또는 파일 시스템이 지원하는 일반 저장소와 같은 다양한 유형의 데이터베이스일 수 있다.
도 1의 시스템(100)은 다양한 방식으로 구성되어 동작하여, 본 공개에 따른 다양한 방법과 기기를 적용할 수 있도록 할 수 있다.
본 공개의 예시적 실시예는 도 2에 나타낸 바와 같이 비디오 여론 획득 방법을 제공한다. 상기 방법은, 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하는 단계(단계 210); 상기 획득하고자 하는 여론 키워드와, 인식 결과를 포함하는 비디오 데이터를 매칭시키는 단계로서, 그중 상기 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하며, 상기 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하는 단계(단계 220); 및 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하는 단계(단계 230)를 포함한다.
본 공개의 실시예에 따르면, 당해 비디오 여론 획득 방법은 미세 세분성으로 텍스트 정보를 인식하여 텍스트 인식의 정확성을 향상시킬 수 있다.
일부 실시예에 따르면, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 정시간적으로 비디오 소스로부터 소스 비디오 데이터를 획득하는 단계; 획득한 소스 비디오 데이터를 기설정 조건으로 필터링하는 단계; 및 필터링된 소스 비디오 데이터를 기설정 포맷으로 코드 전환하여 기설정 콘텐츠 인식에 이용하는 단계를 포함한다.
일부 실시예에 따르면, 상기 기설정 조건은 비디오 시간 길이, 비디오 유형, 배포 시간 중의 하나 또는 다수를 포함한다.
일부 예시에서는, 비디오 소스로부터 획득한 비디오 데이터를 먼저 통일된 포맷과 해상도로 코드 전환한 후 다시 기설정 조건으로 필터링할 수도 있다. 당해 기설정 조건은 비디오 시간 길이, 비디오 유형 및 배포 시간을 포함한다. 예를 들어, 비디오 시간 길이가 5분을 초과하는 비디오 데이터를 필터링하고; 비디오 유형이 “코미디” 유형인 비디오 데이터를 필터링하고; 또한 배포 시간이 2018년 이전인 비디오 데이터를 필터링하는 등이다. 고객의 수요에 따라 필터링 규칙을 구체적으로 설정할 수 있으며, 여기서 한정하지 않는다.
필터링 조건을 설정함으로써, 여론 분석을 위한 비디오 데이터의 정확성을 확보한다. 그 이유는 시간 길이가 과대하게 긴 비디오는 영화 클립 등일 수 있으며, 어떤 유형의 비디오 데이터(예를 들어 코미디 유형의 비디오)는 여론 분석용으로서의 가치도 그다지 크지 않기 때문이다. 이로써, 컴푸팅 자원을 한층 더 절약하여 작동 효율을 향상시킨다.
일부 실시예에 따르면, 상기 텍스트 인식은 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 상기 이미지 중의 텍스트를 인식하여 텍스트 정보로 하는 단계; 및 상기 텍스트 정보로부터 키워드를 추출하고, 상기 추출된 키워드를 인식 결과로 하는 단계를 포함한다.
일부 예시에서는 획득한 비디오에 대해 프레임별로 이미지를 추출하되, 예를 들어 1초당 하나의 프레임을 추출한다. 예를 들어 광학적 문자 판독(OCR) 기술을 이용하여, 추출된 비디오 이미지 중의 문자를 인식한다. 인식한 문자에 대해서는 키워드 추출 알고리즘을 이용하여 키워드를 추출할 수 있으며, 키워드는 텍스트 주제 또는 주된 내용을 반영할 수 있는 단어와 어구이다. 키워드 추출에 이용될 수 있는 알고리즘은 TF-IDF 키워드 추출 방법, Topic-model 키워드 추출 방법과 RAKE 키워드 추출 방법, TextRank 알고리즘, LDA 알고리즘, TPR 알고리즘 등을 포함하나 이에 한정되지 않는다.
일부 예시에서는 비디오의 음성 정보를 추출하고, 자동 음성 인식(ASR) 기술을 이용하여, 추출된 음성을 문자로 전환시킨다. 키워드 추출 알고리즘을 이용하여, 전환된 문자에 대해 키워드를 추출하되, 키워드 추출에 이용될 수 있는 알고리즘은, TF-IDF 키워드 추출 방법, Topic-model 키워드 추출 방법과 RAKE 키워드 추출 방법, TextRank 알고리즘, LDA 알고리즘, TPR 알고리즘 등을 포함하나 이에 한정되지 않는다.
일부 실시예에 따르면, 상기 텍스트 인식은, 상기 비디오의 주변 텍스트를 획득하여 텍스트 정보로 하되, 그중 상기 주변 텍스트는 제목, 설명 텍스트, 음성 텍스트 중의 하나 또는 다수를 포함하는 단계; 상기 텍스트 정보에 대해 단어 분리 처리를 진행하는 단계; 단어 분리 처리를 거친 단어를 훈련된 단어 점도 모델에 입력하여, 각각의 상기 단어가 그것의 바로 뒤의 단어와 이어질 수 있는 확률을 획득하는 단계; 및 상기 확률이 확률 역치보다 큰 단어를 선별하여, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계를 포함한다.
핵심 구는 문장 중의 전형적이고 대표성을 가지는 구를 가리키며, 당해 문장의 핵심 내용을 표현할 수 있다. 일반 핵심 구는 다수의 단어를 포함한다. 예를 들어 “바이두국제빌딩”은 일반적으로 하나의 핵심 구를 구성할 수 있으며, “바이두”, “국제” 및 “빌딩”이라는 3개 단어를 포함한다. 일부 예시에서는 비디오로부터 프레임별로 추출한 이미지 중의 문자, 비디오 음성 중의 문자, 비디오 제목, 비디오 설명어와 비디오 평론 등 각 부분의 문자에 대해 사용자 지정 방식으로 키워드 인식 및/또는 핵심 구 인식을 진행할 수도 있으며, 이는 다수 부분으로부터 인식된 문자를 함께 인식하는 방법, 각 부분의 문자 각각에 대해 인식하는 방법 등을 포함하며, 여기서 한정하지 않는다.
상기 “이어져 있다”는 상기 단어가 다음 단어와 함께 어구로서 나타나는 것을 의미한다. 여기서 어구는 반드시 앞 단어와 그것의 바로 뒤 단어 이 두 단어만 포함하는 것을 의미하지 않으며, 당해 뒤 단어 이후의 단어 또는 어구를 더 포함할 수 있다. 예를 들어, “바이두국제빌딩”에 대해, “바이두”와 “국제”가 이어져 있을 확률을 얻을 수 있으며, “국제”와 “빌딩”이 이어져 있을 확률을 얻을 수도 있다. 당해 확률이 확률 역치(예를 들어 0.8)보다 크면 확률 역치보다 큰 단어와 그것의 바로 뒤 단어를 핵심 구로 구성하고, 연속된 하나 이상의 단어와 이들의 바로 뒤 단어가 이어져 있을 확률이 당해 확률 역치보다 크면, 예를 들어 “바이두”와 “국제”가 이어져 있을 확률과 “국제”와 “빌딩”이 이어져 있을 확률이 모두 확률 역치보다 크면, 상기 연속된 단어로 함께 핵심 구를 구성하여, 핵심 구인 “바이두국제빌딩”을 얻을 수 있다.
훈련된 단어 점도 모델을 통해, 앞뒤 2개의 단어가 이어져 있을 확률을 신속하게 판단할 수 있으며, 이에 더해 당해 확률에 따라 상응하는 핵심 구를 신속하게 획득할 수 있어, 인식률이 높다.
일부 실시예에 따르면, 상기 확률이 확률 역치보다 큰 단어를 선별하여, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계는, 상기 구성된 핵심 구 중의 각 단어의 역 문서 빈도를 획득하는 단계; 상기 핵심 구 중의 모든 단어의 역 문서 빈도의 합을 산출하여 상기 핵심 구의 역 문서 빈도로 하는 단계; 역 문서 빈도가 가장 높은 소정 개수의 핵심 구를 선택하여 상기 인식 결과로 하는 단계를 포함한다.
역 문서 빈도(Inverse Document Frequency, IDF)의 주요 사상은 아래와 같다. 단어/어구 A를 포함하는 문서가 적을수록 그 IDF가 더 크며, 단어/어구 A가 전체 문서집 측면에서 매우 훌륭한 유형 구분 능력을 가짐을 의미한다. 예를 들어 “我(나)”, “了(했다)”, “是(는)”, “的(의)” 등과 같은 통상의 중문 단어/어구는 각 문서에서 거의 매우 높은 단어 빈도를 가지므로, 전체 문서집에서 이들 단어/어구는 그다지 중요하지 않다. 전체 문서집에 있어서, 단어/어구의 중요성을 평가하는 기준은 IDF이다. 일부 예시에서는 역 문서 빈도 산출 모델과 데이터베이스를 구축하여 일련의 단어/어구의 역 문서 빈도를 상응하게 산출하여 저장할 수 있다. 핵심 구를 생성한 후에는, 데이터베이스로부터 당해 핵심 구에 포함된 각 단어/어구의 역 문서 빈도를 판독하고, 획득한 역 문서 빈도를 더하여 상기 핵심 구의 역 문서 빈도로 한다. 핵심 구의 역 문서 빈도 역치를 설정하고, 그 역 문서 빈도가 가장 높은 하나 또는 다수의 핵심 구를 선택하여 인식 결과로 할 수 있다. 추출한 모든 핵심 구를 인식 결과로 할 수도 있음을 이해해야 한다.
핵심 구의 역 문서 빈도를 산출하여, 추출된 핵심 구를 선별함으로써, 추출된 핵심 구가 비디오 콘텐츠의 특성을 더 잘 반영할 수 있도록 하여, 비디오 콘텐츠의 추출 정확도를 향상시킨다.
일부 실시예에 따르면, 상기 텍스트 정보에 대해 긍정적인 감정, 중성적인 감정과 부정적인 감정을 포함하는 감정 분석을 진행하는 단계; 및 상기 텍스트 정보에 대해 민감도 인식, 즉 민감 정보 인식을 진행하는 단계를 더 포함한다.
일부 예시에서는, 추출한 텍스트 정보 중의 실체를 실체 인식 기술을 이용하여 인식할 수 있다. 텍스트 정보 중의 각 문장에 대해 문장 감정 분석 기술을 이용하여 분석하여, 뚜렷한 감정이 없는 문장을 필터링하고, 이에 더해 그 어떤 실체도 포함하지 않는 문장을 필터링하여 실체-문장 쌍을 구성할 수 있다. 실체-문장 쌍을 구성하는 당해 실체의 역 문서 빈도, 즉 가중치(예를 들어 정규화된 형태)를 토대로, 당해 문장의 모든 실체의 감정에 대해 가중합을 구하여 당해 텍스트 정보의 감정 분석 결과를 얻는다.
일부 예시에서, 감정 분석 결과는 예를 들어 긍정적인 감정, 중성적인 감정과 부정적인 감정일 수 있다. 본 예시적 실시예에 따른 시스템은 먼저 감정을 포함한 하나의 단어 데이터베이스를 구축할 수 있다. 당해 단어 데이터베이스의 각 단어는 모두 상응하는 감정 라벨, 예를 들어 긍정적, 중성적 또는 부정적 감정 라벨에 대응된다. 인식된 실체를 상기 단어 데이터베이스 중의 단어와 비교하여 실체에 대응되는 감정을 획득하고, 당해 실체의 역 문서 빈도에 따라, 문장 중의 모든 실체의 감정에 대해 가중합을 구하여 상기 텍스트 정보에 포함된 긍정적인 감정, 중성적인 감정과 부정적인 감정의 확률을 구한다.
일부 예시에서는, 먼저 하나의 민감 단어 데이터베이스를 구축하고, 획득한 텍스트 정보를 상기 민감 단어 데이터베이스와 비교하여 상기 텍스트 정보에 민감 정보가 포함되어 있는지를 확인할 수 있다.
일부 실시예에 따르면, 상기 화상 인식은 안면 인식을 포함하며, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 및 상기 이미지 중의 안면을 인식하고, 안면 데이터베이스를 토대로 상기 안면에 대응되는 명칭을 인식하는 단계를 포함한다.
일부 예시에서는, 미리 설정된 안면 인식 모델을 이용하여, 추출된 비디오 프레임의 화상에 대해 안면 인식을 진행하여 안면 인식 결과를 얻을 수 있다. 여기서 안면 검출 인식 결과는 예를 들어 안면에 대응되는 목표 객체일 수 있다. 본 예시적 실시예에 따른 시스템은 먼저 특정 공인/민감인물을 포함하는 하나의 안면 데이터베이스를 구축하고, 이미지 중의 안면을 검출하며, 안면 영역과 안면 데이터베이스 중의 각 안면에 대해 근사도 측정을 진행할 수 있다. 만약 최대 근사도가 하나의 역치보다 크면, 그 안면에 “누구누구”(특정 공인/민감인물의 명칭, 예를 들어 성명)라는 라벨을 부착하고, 그렇지 않으면 “기타 안면”으로 인식할 수 있다.
일부 실시예에 따르면, 상기 화상 인식은 장면 인식, 실체 인식 및 식별자 인식을 더 포함하고, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 상기 이미지 중의 장면을 인식하는 단계; 상기 이미지 중의 실체를 인식하는 단계; 및 상기 이미지 중의 식별자를 인식하는 단계를 포함한다.
일부 예시에서는, 예를 들어 미리 설정된 장면 인식 모델을 이용하여 키 프레임의 화상에 대해 장면 인식을 진행하여, 화상 중의 장면 예측 결과를 결정할 수 있다. 여기서 장면 예측 결과는 적어도 병원, 캠퍼스, 상가, 광장, 공원과 은행 등 지점의 장면을 포함할 수 있으며, 화재, 혼례, 지질 재해 등 사건 장면을 포함할 수도 있다.
일부 예시에서는, 예를 들어 미리 설정된 실체 인식 모델을 이용하여 키 프레임의 화상에 대해 실체 인식을 진행하여, 화상 중의 실체 예측 결과를 결정할 수 있다. 여기서 실체 예측 결과는 적어도 자동차, 생화, 깃발, 도로 등 일련의 실체를 포함할 수 있다.
일부 예시에서는, 예를 들어 미리 설정된 식별자 인식 모델을 이용하여 키 프레임의 화상에 대해 식별자 인식을 진행하여, 화상 중의 식별자 예측 결과를 결정할 수 있다. 예시적 실시예에 따른 식별자는 상표, logo 등을 포함할 수 있다.
일부 실시예에 따르면, 상기 여론 획득 요청은 필터링하고자 하는 여론 키워드를 더 포함하며, 매칭을 통해 얻은 결과 비디오 데이터를 결정하는 단계는, 매칭을 통해 얻은 비디오 데이터 중, 상기 필터링하고자 하는 여론 키워드에 대응되는 인식 결과를 포함하는 비디오 데이터를 필터링하는 단계; 및 상기 필터링된 비디오 데이터를 상기 결과 비디오 데이터로 결정하는 단계를 포함한다.
일부 실시예에 따르면, 결과 비디오 데이터를 클라이언트에 송신하여 표시 즉 리콜할 수 있다. 표시 전에는, 매칭된 비디오 데이터를 추가적으로 여론 획득 요청 중의 필터링하고자 하는 여론 키워드와 의미 매칭을 진행하고, 필터링된 비디오 데이터를 클라이언트에 송신하여 표시할 수 있다.
본 공개의 실시예에 따르면, 미세 세분성으로 비디오 콘텐츠를 인식하여 추출함으로써, 비디오 콘텐츠에 대한 이해가 더 충분하고 정확도가 더 높아지도록 한다. 비디오 콘텐츠에 대해 더 완전하게 모델링 함으로써 리콜률을 극대화한다.
본 공개의 예시적 실시예는, 도 3에 나타낸 바와 같이 단어 점도 모델의 훈련 방법을 제공한다. 상기 방법은 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계(단계 310); 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계(단계 320); 및 구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하는 단계(단계 330)를 포함한다.
일부 실시예에 따르면, 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계는, 텍스트 언어자료에 대해 단어 분리 처리를 진행하는 단계; 뒤 단어 창을 설정하는 단계로서, 상기 뒤 단어 창은 상기 앞 단어와 단어쌍을 구성할 수 있는, 상기 텍스트 언어자료에서의 상기 앞 단어의 위치 이후의 단어의 개수를 나타내는 것인 단계; 상기 뒤 단어 창 중의 각 단어가 상기 앞 단어와 단어쌍을 구성할 수 있는 확률을 설정하되, 상기 텍스트 언어자료에서의 순서에 따라 상기 확률이 순차적으로 감소하는 단계; 및 상기 뒤 단어 창과 상기 확률을 토대로 단어쌍을 획득하여 훈련 샘플로 하는 단계를 포함한다.
일부 예시적 실시예에서, 단어 점도 모델의 훈련 시, 먼저 텍스트 언어자료를 샘플링하여 훈련 샘플을 획득한다. 텍스트 언어자료를 샘플링하여 얻은 훈련 샘플은 앞 단어와 뒤 단어를 포함하는 단어쌍이다. 샘플링 시에는 먼저 뒤 단어 창의 크기를 설정한다. 당해 창의 크기는 각 단어의 뒤에 몇 개 단어가 샘플링될 수 있는지를 나타낸다. 예를 들어, 텍스트 언어자료의 각 단어에 대해, 그 뒤 단어 창의 크기를 4로 설정하면, 각 단어의 뒤에서 4개의 단어가 선택될 수 있고, 네 번째 단어 뒤의 단어는 선택되지 않음을 나타낸다.
뒤 단어 창의 크기를 설정한 후에는 감쇄율을 설정할 수 있고, 선택될 수 있는 뒤 단어 중의 각 단어가 상기 앞 단어와 단어쌍을 구성할 수 있는 확률을 상기 감쇄율을 토대로 결정할 수 있다. 확률이 높을수록 선택되어 상기 앞 단어와 단어쌍을 구성할 가능성이 더 높다. 예를 들어, discounting 알고리즘을 이용하여 확률을 설정한다. 예를 들어, 감쇄율을 0.3으로 설정할 수 있다. 즉, 창에서 두 번째 단어가 선택될 확률은 첫 번째 단어가 선택될 확률의 30%이고, 세 번째 단어가 선택될 확률은 두 번째 단어가 선택될 확률의 30%이며, 이와 같이 유추한다. 예를 들어, 뒤 단어 창 중의 첫 번째 단어에 하나의 랜덤 수(0보다 크면 된다)를 부여하여, 당해 첫 번째 단어가 선택될 확률을 나타내며, 뒤 단어 창 중의 두 번째 단어, 세 번째 단어…가 선택될 확률을 감쇄율에 따라 순차적으로 설정한다. 뒤 단어 창 중의 각 단어의 확률을 정규화 하여, 뒤 단어 창 중의 모든 확률의 합이 1이 되도록 하되 아래와 같은 감쇄율 조건을 만족시킨다. 이 감쇄율 조건은, 창 중의 두 번째 단어가 선택될 확률은 첫 번째 단어가 선택될 확률의 30%이고, 세 번째 단어가 선택될 확률은 두 번째 단어가 선택될 확률의 30%이며, 이와 같이 유추하는 것이다. 예를 들어, 뒤 단어 창이 4인 경우, 이 중의 1세트의 뒤 단어 창 중의 각 단어가 선택될 확률은 [0.71, 0.21, 0.06, 0.02]로 설정된다. 확률 값에 따라, 뒤 단어 창 중의 어느 하나의 뒤 단어를 선택하고, 이 뒤 단어와 당해 앞 단어로 단어쌍을 구성함으로써, 앞 단어와 뒤 단어를 포함하는 대량의 단어쌍을 얻어 훈련 샘플로 한다.
이해할 수 있는 것은, 만약 어느 하나의 단어쌍이 샘플링될 빈도가 매우 높다면, 이 단어쌍 중의 두 단어는 점도가 높고, 그 반대의 경우에는 그 점도가 낮다는 것을 설명한다.
샘플링이 끝나면, 수집된 훈련 샘플을 토대로 단어 점도 모델의 훈련을 진행할 수 있다. 여기서 구배 하강 방식으로 모델을 훈련시켜, 훈련 데이터를 피팅한다.
일부 실시예에 따르면, 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계는, 입력된 상기 단어쌍 중의 앞 단어와 뒤 단어를 각각 벡터 데이터로 변환시키는 단계; 상기 변환된 벡터 데이터 사이의 코사인 근사도를 산출하는 단계; 및 상기 코사인 근사도를 확률로 변환시키는 단계를 포함한다.
일부 예시에서 단어 점도 모델은 다층 신경망 모델을 이용할 수 있다. 예를 들어, 입력된 두 단어를 word2vec 알고리즘을 이용하여 벡터로 맵핑시킨다. word2vec(word to vector)는 단어를 벡터 형태로 변환시키는 하나의 도구이다. 이것은 텍스트 콘텐츠에 대한 처리를 벡터 공간 중의 벡터 연산으로 단순화 하여, 벡터 공간 상의 근사도를 산출하여 텍스트의 의미 상의 근사도를 나타낼 수 있다. 이해할 수 있듯이, 예를 들어 autoencoder 등과 같이 입력된 단어를 벡터로 변환시킬 수 있는 다른 알고리즘 또는 모델도 사용할 수 있다.
일부 예시에서는, 예를 들어 sigmoid 함수를 이용하여 근사도를 확률로 변환시킬 수 있다. sigmoid 함수는 logistic 함수라고도 하며 은닉층 뉴런의 출력에 이용되며, 하나의 실수를 (0,1) 구간에 맵핑시킬 수 있다. 이해할 수 있듯이, 근사도를 벡터로 변환시킬 수 있는 다른 알고리즘 또는 모델도 사용할 수 있으며, 여기서 한정하지 않는다.
일부 예시에서는, 추출 대상 텍스트에 대해 단어 커팅을 진행하고, 점도 역치를 설정하여 앞과 뒤의 두 단어 사이의 점도를 설정하되, 만약 0.8을 초과하면 단어를 하나로 연결하여 구를 구성한다. 입력된 텍스트에 대해 어순으로 단어 커팅을 진행하여 A / B / C / D / E / F / G를 얻는다고 가정하면, AB, BC, CD, DE, EF, FG로 단어쌍을 구성하여 단어 점도 모델에 입력하여 이들 사이의 단어 점도(즉 이어져 있을 확률)를 얻는다. 예를 들어, 단어 사이의 점도는 각각 A와 B [0.93], B와 C[0.31], C와 D[0.95], D와 E[0.85], E와 F[0.88], F와 G[0.75]로 산출되고, 역치가 0.8일 때 생성될 수 있는 구는 AB, CDEF와 G이다.
훈련된 단어 점도 모델에 의해, 문서에 포함된 핵심 구를 더 정확하고도 효율적으로 추출할 수 있다. 또한, 점도 역치를 설정함으로써, 추출하고자 하는 핵심 구의 정확도와 수를 추가적으로 제어할 수 있다.
본 공개의 예시적 실시예는 도 4에 나타낸 바와 같이 비디오 여론 획득 기기(400)를 제공한다. 상기 비디오 여론 획득 기기(400)는 수신 유닛(410), 매칭 유닛(420)과 결정 유닛(430)을 포함하며, 상기 수신 유닛(410)은 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하도록 구성되고; 상기 매칭 유닛(420)은 상기 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키도록 구성되며, 상기 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하고, 상기 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하며; 상기 결정 유닛(430)은 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하도록 구성된다.
일부 실시예에 따르면, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 정시간적으로 비디오 소스로부터 소스 비디오 데이터를 획득하는 단계; 획득한 소스 비디오 데이터를 기설정 조건으로 필터링하는 단계; 및 필터링된 소스 비디오 데이터를 기설정 포맷으로 코드 전환하여 기설정 콘텐츠 인식에 이용하는 단계를 포함한다.
일부 실시예에 따르면, 상기 기설정 조건은 비디오 시간 길이, 비디오 유형, 배포 시간 중의 하나 또는 다수를 포함한다.
일부 실시예에 따르면, 상기 텍스트 인식은, 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 상기 이미지 중의 텍스트를 인식하여 텍스트 정보로 하는 단계; 및 상기 텍스트 정보로부터 키워드를 추출하고, 상기 추출된 키워드를 인식 결과로 하는 단계를 포함한다.
일부 실시예에 따르면, 상기 텍스트 인식은, 상기 비디오의 주변 텍스트를 획득하여 텍스트 정보로 하되, 상기 주변 텍스트는 제목, 설명 텍스트, 음성 텍스트 중의 하나 또는 다수를 포함하는 단계; 상기 텍스트 정보에 대해 단어 분리 처리를 진행하는 단계; 단어 분리 처리를 거친 단어를 훈련된 단어 점도 모델에 입력하여, 각각의 상기 단어가 그것의 바로 뒤의 단어와 이어질 수 있는 확률을 획득하는 단계; 및 상기 확률이 확률 역치보다 큰 단어를 선별하고, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계를 포함한다.
일부 실시예에 따르면, 상기 확률이 확률 역치보다 큰 단어를 선별하고, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계는, 상기 구성된 핵심 구 중의 각 단어의 역 문서 빈도를 획득하는 단계; 상기 핵심 구 중의 모든 단어의 역 문서 빈도의 합을 산출하여 상기 핵심 구의 역 문서 빈도로 하는 단계; 역 문서 빈도가 가장 높은 소정 개수의 핵심 구를 선택하여 상기 인식 결과로 하는 단계를 포함한다.
일부 실시예에 따르면, 상기 텍스트 인식은, 상기 텍스트 정보에 대해 긍정적인 감정, 중성적인 감정과 부정적인 감정을 포함하는 감정 분석을 진행하는 단계; 및 상기 텍스트 정보에 대해 민감도 인식 다시 말해 민감 정보 인식을 진행하는 단계를 더 포함한다.
일부 실시예에 따르면, 상기 화상 인식은 안면 인식을 포함하며, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 및 상기 이미지 중의 안면을 인식하고, 안면 데이터베이스를 토대로 상기 안면에 대응되는 명칭을 인식하는 단계를 포함한다.
일부 실시예에 따르면, 상기 화상 인식은 장면 인식, 실체 인식 및 식별자 인식을 더 포함하고, 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는, 상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 상기 이미지 중의 장면을 인식하는 단계; 상기 이미지 중의 실체를 인식하는 단계; 및 상기 이미지 중의 식별자를 인식하는 단계를 포함한다.
일부 실시예에 따르면, 상기 여론 획득 요청은 필터링하고자 하는 여론 키워드를 더 포함하며, 매칭을 통해 얻은 결과 비디오 데이터를 결정하는 단계는, 매칭을 통해 얻은 비디오 데이터 중, 상기 필터링하고자 하는 여론 키워드에 대응되는 인식 결과를 포함하는 비디오 데이터를 필터링하는 단계; 및 상기 필터링된 비디오 데이터를 상기 결과 비디오 데이터로 결정하는 단계를 포함한다.
여기서, 비디오 여론 획득 기기(400)의 상기 각 유닛(410~430)의 동작은 각각 위에서 설명한 단계 210~단계 230의 동작과 유사하여 여기서 더 이상 설명하지 않는다.
본 공개의 예시적 실시예는 도 5에 나타낸 바와 같이 단어 점도 모델의 훈련 기기(500)를 제공한다. 상기 단어 점도 모델의 훈련 기기(500)는 샘플링 유닛(510), 훈련 유닛(520)과 응답 유닛(530)을 포함하며, 상기 샘플링 유닛(510)은 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하도록 구성되고; 상기 훈련 유닛(520)은 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 구성되며; 상기 응답 유닛(530)은 구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하도록 구성된다.
일부 실시예에 따르면, 텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계는, 텍스트 언어자료에 대해 단어 분리 처리를 진행하는 단계; 뒤 단어 창을 설정하는 단계로서, 상기 뒤 단어 창은 상기 앞 단어와 단어쌍을 구성할 수 있는, 상기 텍스트 언어자료에서의 상기 앞 단어의 위치 이후의 단어의 개수를 나타내는 것인 단계; 상기 뒤 단어 창 중의 각 단어가 상기 앞 단어와 단어쌍을 구성할 수 있는 확률을 설정하되, 상기 텍스트 언어자료에서의 순서에 따라 상기 확률이 순차적으로 감소하는 단계; 및 상기 뒤 단어 창과 상기 확률을 토대로 단어쌍을 획득하여 훈련 샘플로 하는 단계를 포함한다.
일부 실시예에 따르면, 상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계는, 입력된 상기 단어쌍 중의 앞 단어와 뒤 단어를 각각 벡터 데이터로 변환시키는 단계: 상기 변환된 벡터 데이터 사이의 코사인 근사도를 산출하는 단계; 및 상기 코사인 근사도를 확률로 변환시키는 단계를 포함한다.
여기서, 단어 점도 모델의 훈련 기기(500)의 상기 각 유닛(510~530)의 동작은 각각 위에서 설명한 단계 310~330의 동작과 유사하여 여기서 더 이상 설명하지 않는다.
본 공개의 일 측면은 서버를 더 제공한다. 상기 서버는 프로세서; 및 프로그램이 저장된 메모리를 포함하고, 당해 프로그램은 명령을 포함하며, 당해 명령은 프로세서에 의해 수행될 때 프로세서로 하여금 상술한 비디오 여론 획득 방법을 수행하도록 한다.
본 공개의 다른 측면은 프로그램이 저장된 컴퓨터 판독가능 저장매체를 제공한다. 당해 프로그램은 명령을 포함하며, 당해 명령은 서버의 프로세서에 의해 수행될 때 서버로 하여금 상술한 비디오 여론 획득 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 서버를 제공한다. 상기 서버는 프로세서; 및 프로그램이 저장된 메모리를 포함하며, 당해 프로그램은 명령을 포함하고, 당해 명령은 프로세서에 의해 수행될 때 프로세서로 하여금 상술한 단어 점도 모델의 훈련 방법을 수행하도록 한다.
본 공개의 또 다른 측면은 프로그램이 저장된 컴퓨터 판독가능 저장매체를 제공한다. 당해 프로그램은 명령을 포함하며, 당해 명령은 서버의 프로세서에 의해 수행될 때 서버로 하여금 상술한 단어 점도 모델의 훈련 방법을 수행하도록 한다.
도 6을 참고하여, 본 공개의 서버 또는 클라이언트가 될 수 있는 컴퓨팅 기기(2000)의 구성 블록도를 설명한다. 컴퓨팅 기기(2000)는 본 공개의 각 측면에 적용될 수 있는 하드웨어 기기의 예시이다.
컴퓨팅 기기(2000)는 (하나 또는 다수의 인터페이스를 통해) 버스(2002)에 연결되거나(연결될 수 있거나) 버스(2002)와 통신하는(통신할 수 있는) 소자를 포함할 수 있다. 예를 들어, 컴퓨팅 기기(2000)는 버스(2002), 하나 또는 다수의 프로세서(2004), 하나 또는 다수의 입력 기기(2006) 및 하나 또는 다수의 출력 기기(2008)를 포함할 수 있다. 하나 또는 다수의 프로세서(2004)는 임의의 유형의 프로세서일 수 있으며, 하나 또는 다수의 범용 프로세서 및/또는 하나 또는 다수의 전용 프로세서(예를 들어 특수 처리 칩)를 포함할 수 있으나 이에 한정되지 않는다. 프로세서(2004)는 컴퓨팅 기기(2000) 내에서 수행되는 명령을 처리할 수 있으며, 상기 명령은 메모리 또는 메모리에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 표시 기기)에 GUI의 도형 정보를 표시하는 명령을 포함한다. 다른 실시형태에서는, 필요 시에 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 컴퓨팅 기기를 연결할 수 있으며, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 1세트의 블레이드 서버, 또는 다중 프로세서 시스템으로서)을 제공한다. 도 6에서는 하나의 프로세서(2004)를 예로 들었다.
입력 기기(2006)는 컴퓨팅 기기(2000)에 정보를 입력할 수 있는 임의의 유형의 기기일 수 있다. 입력 기기(2006)는 입력된 숫자 또는 문자 정보를 수신하고, 비디오 여론 획득 및/또는 단어 점도 모델의 훈련용 컴퓨팅 기기의 유저 설정 및/또는 기능 제어와 관련된 키 신호를 생성하여 입력할 수 있다. 입력 기기(2006)는 마우스, 키보드, 터치 스크린, 트랙 패드, 트랙 볼, 조종간, 마이크 및/또는 리모컨을 포함할 수 있으나 이에 한정되지 않는다.
출력 기기(2008)는 정보를 나타낼 수 있는 임의의 유형의 기기일 수 있으며, 디스플레이, 스피커, 비디오/오디오 출력 단말기, 진동기 및/또는 프린터를 포함할 수 있으나 이에 한정되지 않는다. 컴퓨팅 기기(2000)는 비일시적 저장 기기(2010)를 포함하거나 비일시적 저장 기기(2010)에 연결될 수도 있다. 비일시적 저장 기기는 비일시적이며 데이터 저장을 구현할 수 있는 임의의 저장 기기일 수 있다. 비일시적 저장 기기는 디스크 드라이버, 광학 저장 기기, 고체 메모리, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프 또는 임의의 다른 자기 매체, 광 디스크 또는 임의의 다른 광학 매체, ROM(롬), RAM(램), 캐시 메모리 및/또는 임의의 다른 메모리 칩 또는 박스, 및/또는 컴퓨터가 데이터, 명령 및/또는 코드를 판독할 수 있는 임의의 다른 매체를 포함할 수 있으나 이에 한정되지 않는다. 비일시적 저장 기기(2010)는 인터페이스로부터 탈착될 수 있다. 비일시적 저장 기기(2010)는 상기 방법과 단계를 구현하기 위한 데이터/프로그램(명령을 포함)/코드/유닛(예를 들어, 도 4에 나타낸 수신 유닛, 매칭 유닛, 결정 유닛 및 도 5에 나타낸 샘플링 유닛, 훈련 유닛, 응답 유닛)을 구비할 수 있다.
컴퓨팅 기기(2000)는 통신 기기(2012)를 포함할 수도 있다. 통신 기기(2012)는 외부 기기 및/또는 네트워크와 통신할 수 있는 임의의 유형의 기기 또는 시스템일 수 있으며, 모뎀, 네트워크 카드, 적외선 통신 기기, 무선 통신 기기 및/또는 칩셋, 예를 들어 블루투스 TM 기기, 1302.11 기기, WiFi 기기, WiMax 기기, 셀룰러 통신 기기 및/또는 유사물을 포함할 수 있으나 이에 한정되지 않는다.
컴퓨팅 기기(2000)는 작업 메모리(2014)를 포함할 수도 있으며, 작업 메모리(2014)는 프로세서(2004)의 작업에 유용한 프로그램(명령을 포함) 및/또는 데이터를 저장할 수 있는 임의의 유형의 작업 메모리일 수 있으며, 램 및/또는 롬 기기를 포함할 수 있으나 이에 한정되지 않는다.
소프트웨어 요소(프로그램)는 작업 메모리(2014)에 위치할 수 있으며, 운영 시스템(2016), 하나 또는 다수의 응용 프로그램(2018), 구동 프로그램 및/또는 그밖의 다른 데이터와 코드를 포함하나 이에 한정되지 않는다. 상기 방법과 단계를 수행하기 위한 명령은 하나 또는 다수의 응용 프로그램(2018)에 포함될 수 있으며, 상기 비디오 여론 획득 방법 및/또는 단어 점도 모델의 훈련 방법은 각각 프로세서(2004)에 의해 판독되어 하나 또는 다수의 응용 프로그램(2018)을 실행시키는 명령에 의해 구현될 수 있다. 더 구체적으로, 상기 비디오 여론 획득 방법 및/또는 단어 점도 모델의 훈련 방법에서 단계 110~단계 150은 예를 들어 프로세서(2004)를 통해, 단계 110 ~ 단계 150의 명령을 구비한 응용 프로그램(2018)을 실행시킴으로써 구현될 수 있다. 또한, 상기 비디오 여론 획득 방법 및/또는 단어 점도 모델의 훈련 방법 중의 다른 단계는 예를 들어 프로세서(2004)를 통해, 상응한 단계를 수행하는 명령을 구비한 응용 프로그램(2018)을 실행시킴으로써 구현될 수 있다. 소프트웨어 요소(프로그램)의 명령의 수행 가능한 코드 또는 소스 코드는 비일시적 컴퓨터 판독가능 저장매체(예를 들어 상기 저장 기기(2010))에 저장될 수 있으며, 수행 시에는 작업 메모리(2014)에 저장될 수 있다(컴파일 및/또는 설치될 수 있다). 소프트웨어 요소(프로그램)의 명령의 수행 가능한 코드 또는 소스 코드는 원거리 위치로부터 다운로드될 수도 있다.
또한, 구체적인 요구에 따라 다양하게 변형할 수 있음을 이해해야 한다. 예를 들어, 주문형 하드웨어를 사용할 수도 있고, 또한/또는 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로 코드, 하드웨어 설명 언어 또는 이들의 임의의 조합을 이용하여 특정 소자를 구현할 수 있다. 예를 들어, 공개된 방법과 기기 중의 일부 또는 전체는 본 공개에 따른 로직과 알고리즘을 통하여, 어셈블리 언어 또는 하드웨어 프로그래밍 언어(예컨대 VERILOG, VHDL, C ++)를 이용하여 하드웨어(예를 들어, 필드 프로그래머블 게이트 어레이(FPGA) 및/또는 프로그래머블 로직 어레이(PLA)를 포함하는 프로그래머블 로직 회로)를 이용하여 프로그래밍하여 구현할 수 있다.
또한, 전술한 방법은 서버-클라이언트 모드를 이용하여 구현할 수 있음을 이해해야 한다. 예를 들어, 클라이언트는 유저가 입력한 데이터를 수신하고 상기 데이터를 서버에 송신할 수 있다. 클라이언트는 유저가 입력한 데이터를 수신하여, 전술한 방법 중의 일부를 처리하고 처리하여 얻은 데이터를 서버에 송신할 수도 있다. 서버는 클라이언트로부터 데이터를 수신하여, 전술한 방법 또는 전술한 방법 중의 다른 부분을 수행하고, 수행 결과를 클라이언트에 피드백할 수 있다. 클라이언트는 서버로부터 방법의 수행 결과를 수신할 수 있으며, 또한 예를 들어 출력 기기를 통해 유저에게 보여줄 수 있다. 클라이언트와 서버는 일반적으로 서로 이격되고, 통상적으로 통신 네트워크를 통해 인터랙티브를 진행한다. 상응한 컴퓨팅 기기에서 작동되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킨다. 서버는 분산형 시스템의 서버이거나, 또는 블록체인을 결합한 서버일 수 있다. 서버는 클라우드 서버이거나, 또는 인공지능 기술을 결합한 스마트 클라우드 컴퓨팅 서버 또는 스마트 클라우드 호스트일 수 있다.
또한, 컴퓨팅 기기(2000)의 컴포넌트는 네트워크에 분산될 수 있음을 이해해야 한다. 예를 들어, 하나의 프로세서를 이용하여 일부 처리를 수행할 수 있으며, 이와 동시에 당해 하나의 프로세서로부터 이격된 다른 프로세서에 의해 다른 처리를 수행할 수 있다. 컴퓨팅 기기(2000)의 다른 컴포넌트도 유사하게 분포될 수 있다. 이와 같이, 컴퓨팅 기기(2000)는 다수의 위치에서 처리를 수행하는 분산형 컴퓨팅 시스템으로 해석될 수 있다.
비록 도면을 참고하여 본 공개의 실시예 또는 예시를 설명했으나, 상기 방법, 시스템 및 기기는 예시적 실시예 또는 예시일 뿐이며, 본 발명의 범위는 이들 실시예 또는 예시에 한정되지 않으며, 등록된 특허청구범위 및 그것의 균등 범위에 의해 한정됨을 이해해야 한다. 실시예 또는 예시 중의 각종 요소는 생략될 수 있거나 또는 그것의 균등 요소에 의해 대체될 수 있다. 또한, 본 공개에서 설명된 것과 다른 순서로 각 단계를 수행할 수 있다. 나아가, 다양한 방식으로 실시예 또는 예시 중의 각종 요소를 조합할 수 있다. 중요한 것은 기술의 발전에 따라 여기서 설명된 많은 요소는 본 공개 이후에 나타나는 균등 요소에 의해 교체될 수 있다는 점이다.

Claims (26)

  1. 비디오 여론 획득 방법에 있어서,
    획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하는 단계;
    상기 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키는 단계로서, 그중 상기 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하며, 상기 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하는 단계; 및
    매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하는 단계
    를 포함하고,
    상기 텍스트 인식은,
    상기 비디오의 주변 텍스트를 획득하여 텍스트 정보로 하되, 그중 상기 주변 텍스트는 제목, 설명 텍스트, 음성 텍스트 중의 하나 또는 다수를 포함하는 단계;
    상기 텍스트 정보에 대해 단어 분리 처리를 진행하는 단계;
    단어 분리 처리를 거친 단어를 훈련된 단어 점도 모델에 입력하여, 각각의 상기 단어가 그것의 바로 뒤의 단어와 이어질 수 있는 확률을 획득하는 단계; 및
    상기 확률이 확률 역치보다 큰 단어를 선별하고, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계를 포함하고,
    상기 음성 텍스트는 상기 비디오의 음성 설명 및 상기 비디오 내의 음성 정보 중 적어도 하나로부터 변환되고,
    상기 훈련된 단어 점도 모델은 신경망 모델로서, 이에 입력된 단어가 연결되어 하나의 구로 나타나는 확률을 결정하도록 훈련되는 것인, 비디오 여론 획득 방법.
  2. 제1항에 있어서,
    상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는,
    정시간적으로 비디오 소스로부터 소스 비디오 데이터를 획득하는 단계;
    획득한 소스 비디오 데이터를 기설정 조건으로 필터링하는 단계; 및
    상기 필터링을 거친 소스 비디오 데이터를 기설정 포맷으로 코드 전환하여, 상기 기설정 콘텐츠 인식에 이용하는 단계를 포함하는 비디오 여론 획득 방법.
  3. 제2항에 있어서,
    상기 기설정 조건은 비디오 시간 길이, 비디오 유형, 배포 시간 중의 하나 또는 다수를 포함하는 비디오 여론 획득 방법.
  4. 제1항에 있어서,
    상기 텍스트 인식은,
    상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계;
    상기 이미지 중의 텍스트를 인식하여 텍스트 정보로 하는 단계; 및
    상기 텍스트 정보로부터 키워드를 추출하고, 상기 추출된 키워드를 인식 결과로 하는 단계를 포함하는 비디오 여론 획득 방법.
  5. 제1항에 있어서,
    상기 확률이 확률 역치보다 큰 단어를 선별하고, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계는,
    상기 구성된 핵심 구 중의 각 단어의 역 문서 빈도를 획득하는 단계;
    상기 핵심 구 중의 모든 단어의 역 문서 빈도의 합을 산출하여 상기 핵심 구의 역 문서 빈도로 하는 단계; 및
    역 문서 빈도가 가장 높은 소정 개수의 핵심 구를 선택하여 상기 인식 결과로 하는 단계를 포함하는, 비디오 여론 획득 방법.
  6. 제4항에 있어서,
    상기 텍스트 정보에 대해 긍정적인 감정, 중성적인 감정과 부정적인 감정을 포함하는 감정 분석을 진행하는 단계; 및
    상기 텍스트 정보에 대해 민감도 인식을 진행하는 단계를 더 포함하는 비디오 여론 획득 방법.
  7. 제1항에 있어서,
    상기 화상 인식은 안면 인식을 포함하며,
    상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는,
    상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계; 및
    상기 이미지 중의 안면을 인식하고, 안면 데이터베이스를 토대로 상기 안면에 대응되는 명칭을 인식하는 단계를 포함하는, 비디오 여론 획득 방법.
  8. 제1항에 있어서,
    상기 화상 인식은 장면 인식, 실체 인식 및 식별자 인식을 더 포함하고,
    상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하는 단계는,
    상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계;
    상기 이미지 중의 장면을 인식하는 단계;
    상기 이미지 중의 실체를 인식하는 단계; 및
    상기 이미지 중의 식별자를 인식하는 단계를 포함하는, 비디오 여론 획득 방법.
  9. 제1항에 있어서,
    상기 여론 획득 요청은 필터링하고자 하는 여론 키워드를 더 포함하며,
    매칭을 통해 얻은 결과 비디오 데이터를 결정하는 단계는,
    매칭을 통해 얻은 비디오 데이터 중, 상기 필터링하고자 하는 여론 키워드에 대응되는 인식 결과를 포함하는 비디오 데이터를 필터링하는 단계; 및
    상기 필터링을 거친 비디오 데이터를 상기 결과 비디오 데이터로 결정하는 단계
    를 포함하는, 비디오 여론 획득 방법.
  10. 제1항에 있어서,
    훈련된 단어 점도 모델이,
    텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계;
    상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 단어 점도 모델로 하여금, 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계; 및
    구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하는 단계
    를 포함하는 단계를 수행함으로써 훈련된, 비디오 여론 획득 방법.
  11. 제10항에 있어서,
    텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계는,
    텍스트 언어자료에 대해 단어 분리 처리를 진행하는 단계;
    뒤 단어 창을 설정하는 단계로서, 상기 뒤 단어 창은 상기 앞 단어와 단어쌍을 구성할 수 있는, 상기 텍스트 언어자료에서의 상기 앞 단어의 위치 이후의 단어의 개수를 나타내는 것인 단계;
    상기 뒤 단어 창 중의 각 단어가 상기 앞 단어와 단어쌍을 구성할 수 있는 확률을 설정하되, 상기 텍스트 언어자료에서의 순서에 따라 상기 확률이 순차적으로 감소하는 단계; 및
    상기 뒤 단어 창과 상기 확률을 토대로 단어쌍을 획득하여 훈련 샘플로 하는 단계를 포함하는, 비디오 여론 획득 방법.
  12. 제10항에 있어서,
    상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계는,
    입력된 상기 단어쌍 중의 앞 단어와 뒤 단어를 각각 벡터 데이터로 변환시키는 단계;
    상기 변환된 벡터 데이터 사이의 코사인 근사도를 산출하는 단계; 및
    상기 코사인 근사도를 확률로 변환시키는 단계를 포함하는, 비디오 여론 획득 방법.
  13. 비디오 여론 획득 기기에 있어서,
    수신 유닛, 매칭 유닛과 결정 유닛을 포함하며,
    상기 수신 유닛은 획득하고자 하는 여론 키워드를 포함하는 여론 획득 요청을 수신하도록 구성되고;
    상기 매칭 유닛은 상기 획득하고자 하는 여론 키워드를 인식 결과를 포함하는 비디오 데이터와 매칭시키도록 구성되며, 그중 상기 인식 결과는 상기 비디오 데이터에 대해 기설정 콘텐츠 인식을 진행하여 획득하고, 상기 기설정 콘텐츠 인식은 텍스트 인식과 화상 인식을 포함하며;
    상기 결정 유닛은 매칭을 통해 얻은 비디오 데이터를 결과 비디오 데이터로 결정하도록 구성되고,
    상기 텍스트 인식은,
    상기 비디오의 주변 텍스트를 획득하여 텍스트 정보로 하되, 상기 주변 텍스트는 제목, 설명 텍스트, 음성 텍스트 중의 하나 또는 다수를 포함하는 단계;
    상기 텍스트 정보에 대해 단어 분리 처리를 진행하는 단계;
    단어 분리 처리를 거친 단어를 훈련된 단어 점도 모델에 입력하여, 각각의 상기 단어가 그것의 바로 뒤의 단어와 이어질 수 있는 확률을 획득하는 단계; 및
    상기 확률이 확률 역치보다 큰 단어를 선별하여, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계를 포함하고,
    상기 음성 텍스트는 상기 비디오의 음성 설명 및 상기 비디오 내의 음성 정보 중 적어도 하나로부터 변환되고,
    상기 훈련된 단어 점도 모델은 신경망 모델로서, 이에 입력된 단어가 연결되어 하나의 구로 나타나는 확률을 결정하도록 훈련되는 것인,
    비디오 여론 획득 기기.
  14. 제13항에 있어서,
    상기 텍스트 인식은,
    상기 비디오로부터 프레임을 추출하고, 추출된 각 프레임의 이미지를 획득하는 단계;
    상기 이미지 중의 텍스트를 인식하여 텍스트 정보로 하는 단계; 및
    상기 텍스트 정보로부터 키워드를 추출하고, 상기 추출된 키워드를 인식 결과로 하는 단계를 포함하는, 비디오 여론 획득 기기.
  15. 제13항에 있어서,
    상기 확률이 확률 역치보다 큰 단어를 선별하여, 상기 단어로 핵심 구를 구성하여 인식 결과로 하는 단계는,
    상기 구성된 핵심 구 중의 각 단어의 역 문서 빈도를 획득하는 단계;
    상기 핵심 구 중의 모든 단어의 역 문서 빈도의 합을 산출하여 상기 핵심 구의 역 문서 빈도로 하는 단계; 및
    역 문서 빈도가 가장 높은 소정 개수의 핵심 구를 선택하여 상기 인식 결과로 하는 단계를 포함하는, 비디오 여론 획득 기기.
  16. 제13항에 있어서,
    훈련된 단어 점도 모델이,
    텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계;
    상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 단어 점도 모델로 하여금 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계;
    구배 하강 방식으로 상기 단어 점도 모델을 훈련시키되, 상기 단어 점도 모델이 기설정 정밀도 또는 기설정 훈련 횟수를 포함하는 기설정 조건에 도달하면 훈련을 중지하는 단계
    를 포함하는 단계를 수행함으로써 훈련된, 비디오 여론 획득 기기.
  17. 제16항에 있어서,
    텍스트 언어자료에 대해 단어 분리를 진행하여, 앞 단어와 뒤 단어 이 두 단어를 포함하는 다수의 단어쌍을 획득하여 훈련 샘플로 하는 단계는,
    텍스트 언어자료에 대해 단어 분리 처리를 진행하는 단계;
    뒤 단어 창을 설정하는 단계로서, 상기 뒤 단어 창은 상기 앞 단어와 단어쌍을 구성할 수 있는, 상기 텍스트 언어자료에서의 상기 앞 단어의 위치 이후의 단어의 개수를 나타내는 것인 단계;
    상기 뒤 단어 창 중의 각 단어가 상기 앞 단어와 단어쌍을 구성할 수 있는 확률을 설정하되, 상기 텍스트 언어자료에서의 순서에 따라 상기 확률이 순차적으로 감소하는 단계; 및
    상기 뒤 단어 창과 상기 확률을 토대로 단어쌍을 획득하여 훈련 샘플로 하는 단계를 포함하는, 비디오 여론 획득 기기.
  18. 제16항에 있어서,
    상기 훈련 샘플을 토대로 상기 단어 점도 모델을 훈련시켜, 상기 단어 점도 모델로 하여금 각각의 단어쌍이 핵심 구를 구성할 수 있는 확률을 출력하도록 하는 단계는,
    입력된 상기 단어쌍 중의 앞 단어와 뒤 단어를 각각 벡터 데이터로 변환시키는 단계;
    상기 변환된 벡터 데이터 사이의 코사인 근사도를 산출하는 단계; 및
    상기 코사인 근사도를 확률로 변환시키는 단계를 포함하는, 비디오 여론 획득 기기.
  19. 서버에 있어서,
    프로세서; 및
    프로그램이 저장된 메모리를 포함하며,
    상기 프로그램은 명령을 포함하고, 상기 명령은 상기 프로세서에 의해 수행될 때 상기 프로세서로 하여금 제1항 내지 제12항 중 어느 한 항에 따른 비디오 여론 획득 방법을 수행하도록 하는,
    서버.
  20. 프로그램이 저장된 컴퓨터 판독가능 저장매체에 있어서,
    상기 프로그램은 명령을 포함하고, 상기 명령은 서버의 프로세서에 의해 수행될 때, 상기 서버로 하여금 제1항 내지 제12항 중 어느 한 항에 따른 비디오 여론 획득 방법을 수행하도록 하는,
    프로그램이 저장된 컴퓨터 판독가능 저장매체.
  21. 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 명령을 포함하고, 상기 명령은 적어도 하나의 프로세서에 의해 수행될 때 제1항 내지 제12항 중 어느 한 항에 따른 비디오 여론 획득 방법을 구현하는,
    컴퓨터 프로그램.
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
KR1020210027325A 2020-09-30 2021-03-02 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체 KR102527589B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011058837.3 2020-09-30
CN202011058837.3A CN112052375B (zh) 2020-09-30 2020-09-30 舆情获取和词粘度模型训练方法及设备、服务器和介质

Publications (2)

Publication Number Publication Date
KR20220044074A KR20220044074A (ko) 2022-04-06
KR102527589B1 true KR102527589B1 (ko) 2023-04-28

Family

ID=73606273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210027325A KR102527589B1 (ko) 2020-09-30 2021-03-02 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체

Country Status (5)

Country Link
US (1) US11610401B2 (ko)
EP (1) EP3979126A1 (ko)
JP (1) JP2022058098A (ko)
KR (1) KR102527589B1 (ko)
CN (1) CN112052375B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115474093B (zh) * 2022-11-02 2023-03-24 深圳市云积分科技有限公司 视频要素重要度的计算方法及装置、存储介质、电子设备
CN117422063B (zh) * 2023-12-18 2024-02-23 四川省大数据技术服务中心 应用智能辅助决策的大数据处理方法及智能辅助决策系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829033A (zh) * 2017-11-23 2019-05-31 阿里巴巴集团控股有限公司 数据展示方法和终端设备
KR102304673B1 (ko) 2017-02-23 2021-09-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021857A (zh) 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US9311619B2 (en) * 2010-09-10 2016-04-12 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
CN105095211B (zh) * 2014-04-22 2019-03-26 北大方正集团有限公司 多媒体数据的获取方法和装置
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107451121A (zh) * 2017-08-03 2017-12-08 京东方科技集团股份有限公司 一种语音识别方法及其装置
CN107577663B (zh) 2017-08-24 2021-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN108509474B (zh) * 2017-09-15 2022-01-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN110178130B (zh) * 2017-12-04 2021-08-13 华为技术有限公司 一种生成相册标题的方法及设备
CN108182211B (zh) * 2017-12-19 2020-06-30 百度在线网络技术(北京)有限公司 视频舆情获取方法、装置、计算机设备及存储介质
CN109800352B (zh) * 2018-12-30 2022-08-12 上海触乐信息科技有限公司 基于剪贴板进行信息推送的方法、系统及终端设备
CN110347823A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 基于语音的用户分类方法、装置、计算机设备及存储介质
CN110837581B (zh) * 2019-11-04 2023-05-23 云目未来科技(北京)有限公司 视频舆情分析的方法、装置以及存储介质
CN110929683B (zh) * 2019-12-09 2021-01-22 北京赋乐科技有限公司 一种基于人工智能的视频舆情监测方法及系统
CN111178089B (zh) * 2019-12-20 2023-03-14 沈阳雅译网络技术有限公司 一种双语平行数据一致性检测与纠正方法
CN111158641B (zh) * 2019-12-31 2021-05-07 中国科学院软件研究所 基于语义分析和文本挖掘的事务类功能点自动识别方法
CN111694946A (zh) * 2020-05-27 2020-09-22 平安银行股份有限公司 文本关键词可视化显示方法、装置及计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102304673B1 (ko) 2017-02-23 2021-09-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
CN109829033A (zh) * 2017-11-23 2019-05-31 阿里巴巴集团控股有限公司 数据展示方法和终端设备

Also Published As

Publication number Publication date
US20220101009A1 (en) 2022-03-31
CN112052375A (zh) 2020-12-08
CN112052375B (zh) 2024-06-11
EP3979126A1 (en) 2022-04-06
KR20220044074A (ko) 2022-04-06
US11610401B2 (en) 2023-03-21
JP2022058098A (ja) 2022-04-11

Similar Documents

Publication Publication Date Title
CN111279413B (zh) 联合音频视频面部动画系统
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US20230010160A1 (en) Multimodal data processing
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
US10181333B2 (en) Intelligent truthfulness indicator association
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
KR102527589B1 (ko) 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체
CN113806588A (zh) 搜索视频的方法和装置
WO2021237227A1 (en) Method and system for multi-language text recognition model with autonomous language classification
CN113656587A (zh) 文本分类方法、装置、电子设备及存储介质
CN112487137A (zh) 使用集成共享资源来流线化对话处理
CN112508432A (zh) 广告潜在风险检测方法及装置、电子设备、介质和产品
CN116705034A (zh) 声纹特征提取方法、说话人识别方法、模型训练方法及装置
EP4250285A1 (en) Speech recognition method and apparatus
KR102395410B1 (ko) 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법
CN114547252A (zh) 文本识别方法、装置、电子设备和介质
CN115113967A (zh) 问题反馈方法和装置、电子设备及存储介质
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
CN114999449A (zh) 数据处理方法和装置
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
CN109739970B (zh) 信息处理方法及装置、以及电子设备
KR102320851B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법
CN116310556A (zh) 视频分类方法、视频分类模型的训练方法及装置
Litoriya et al. Implementing visual assistant using YOLO and SSD for visually-impaired persons

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant