KR102422844B1 - 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 - Google Patents
인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 Download PDFInfo
- Publication number
- KR102422844B1 KR102422844B1 KR1020220058847A KR20220058847A KR102422844B1 KR 102422844 B1 KR102422844 B1 KR 102422844B1 KR 1020220058847 A KR1020220058847 A KR 1020220058847A KR 20220058847 A KR20220058847 A KR 20220058847A KR 102422844 B1 KR102422844 B1 KR 102422844B1
- Authority
- KR
- South Korea
- Prior art keywords
- risk
- vocabulary
- community
- frequency
- server
- Prior art date
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000007726 management method Methods 0.000 description 50
- 206010028916 Neologism Diseases 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013058 risk prediction model Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 235000019640 taste Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 일실시예에 따른, 언어 위기 관리 시스템에서 수행되는 방법은: (a) 서버에 의하여, 복수의 고위험 커뮤니티의 목록을 고위험 커뮤니티 데이터베이스에 저장하는 단계; (b) 상기 서버에 의하여, 기 발생한 언어 위기 관리 사례에 기초하여, 논란이 된 어휘인 고위험 어휘의 목록을 고위험 어휘 데이터베이스에 저장하는 단계; (c) 상기 서버에 의하여, 상기 고위험 어휘 데이터베이스에 저장된 각 어휘에 대하여, 상기 복수의 고위험 커뮤니티 중 각각에서의 사용 빈도를, 커뮤니티 풀에서의 사용 빈도로 나눈 값인 상대 사용 빈도를 산출하는 단계 - 상기 커뮤니티 풀은 상기 복수의 고위험 커뮤니티 및 저위험 커뮤니티를 포함함 -; (d) 상기 서버에 의하여, 상기 기 발생한 언어 위기 관리 사례 및 상기 (c) 단계에서 산출된 상기 상대 사용 빈도에 기초하여, 임의의 어휘에 대하여 리스크 발생 확률을 계산하는 제1 인공지능 모델을 생성하는 단계; (e) 상기 서버가 사용자 장치로부터 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하는 단계; (f) 상기 서버가 상기 텍스트에 포함되는 복수의 어휘를 추출하는 단계; (g) 상기 서버가 상기 텍스트에 포함되는 복수의 어휘 중 각각에 대하여, 상기 상대 사용 빈도를 산출하고, 상대 사용 빈도 및 제1 인공지능 모델에 기초하여 리스크 발생 확률을 계산하는 단계; 및 (h) 상기 서버가, 상기 텍스트에 포함되는 복수의 어휘 중 상기 (g) 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 상기 사용자 장치에 전송하는 단계; 를 포함한다.
Description
본 발명은 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 및 그러한 방법이 수행되는 언어 위기 관리 시스템에 관한 것이다.
인공지능(Artificial Intelligence)은 인간의 지능이 갖고 있는 기능을 갖춘 컴퓨터 시스템을 뜻하며, 인간의 지능을 기계 등에 인공적으로 구현한 것을 의미한다. 머신러닝(Machine Learning) 혹은 기계학습은 인공지능의 한 분야로, 컴퓨터가 학습을 통하여 문제 해결을 위한 적절한 출력을 낼 수 있는 모델을 생성하는 기술을 의미한다. 딥러닝(Deep Learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(다량의 복잡한 자료들에서 핵심적인 내용만 추려내는 작업)을 시도하는 기계학습 알고리즘의 집합을 의미한다.
인공지능 기술은 다양한 분야에서 적용되고 있으나, 그럼에도 불구하고 여러 산업 현장에서는 적절히 적용되지 못하고 있는 것이 현실이다.
인터넷 공간에서 사용되는 밈, 유행어, 또는 특정한 표현과 같은 언어 습관은 유사한 성향 또는 유사한 취향을 가진 사람들이 모인 커뮤니티 내에서 전파되는 것이 특징이다. 극단적인 정치 성향 또는 반사회적 게시글이 게시된 특정한 고위험 커뮤니티에서 발생한 언어 습관에 따른 특정 어휘가 불특정 다수가 시청하는 영상 컨텐츠에 사용되는 경우, 다수 시청자들의 반감을 불러일으킬 수 있어 주의가 필요하다.
그러나, 취향이 세분화됨에 따라 인터넷상의 커뮤니티 공간의 개수도 많으며, 신조어가 끊임없이 발생하고, 한 어휘가 변형되어 전파되기도 하는 인터넷 공간의 특성상, 영상 제작자는 어떤 어휘가 단순히 유행하는 신조어이고 어떤 어휘가 고위험 커뮤니티에서 유래한 어휘인지 분간하기 어렵고, 심지어는 고위험 커뮤니티를 모두 파악하기도 어렵다는 문제가 있다.
영상 제작자가 인터넷 상의 신조어를 잘 아는 직원의 경험적 지식을 통해 고위험 커뮤니티에서 사용되는 어휘를 걸러내는 경우, 직원이 가지고 있는 배경 지식에 의존해야 하고, 해당 직원 또한 끊임없이 변화하는 인터넷 커뮤니티 지형 및 신조어의 유래를 조사해야 하는 비효율이 발생한다.
본 발명의 목적은 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 효율적으로 관리하는 방법 및 그러한 방법이 수행되는 언어 위기 관리 시스템을 제공하는 것이다.
본 발명의 일실시예에 따른, 언어 위기 관리 시스템에서 수행되는 방법은: (a) 서버에 의하여, 복수의 고위험 커뮤니티의 목록을 고위험 커뮤니티 데이터베이스에 저장하는 단계; (b) 상기 서버에 의하여, 기 발생한 언어 위기 관리 사례에 기초하여, 논란이 된 어휘인 고위험 어휘의 목록을 고위험 어휘 데이터베이스에 저장하는 단계; (c) 상기 서버에 의하여, 상기 고위험 어휘 데이터베이스에 저장된 각 어휘에 대하여, 상기 복수의 고위험 커뮤니티 중 각각에서의 사용 빈도를, 커뮤니티 풀에서의 사용 빈도로 나눈 값인 상대 사용 빈도를 산출하는 단계 - 상기 커뮤니티 풀은 상기 복수의 고위험 커뮤니티 및 저위험 커뮤니티를 포함함 -; (d) 상기 서버에 의하여, 상기 기 발생한 언어 위기 관리 사례 및 상기 (c) 단계에서 산출된 상기 상대 사용 빈도에 기초하여, 임의의 어휘에 대하여 리스크 발생 확률을 계산하는 제1 인공지능 모델을 생성하는 단계; (e) 상기 서버가 사용자 장치로부터 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하는 단계; (f) 상기 서버가 상기 텍스트에 포함되는 복수의 어휘를 추출하는 단계; (g) 상기 서버가 상기 텍스트에 포함되는 복수의 어휘 중 각각에 대하여, 상기 상대 사용 빈도를 산출하고, 상대 사용 빈도 및 제1 인공지능 모델에 기초하여 리스크 발생 확률을 계산하는 단계; 및 (h) 상기 서버가, 상기 텍스트에 포함되는 복수의 어휘 중 상기 (g) 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 상기 사용자 장치에 전송하는 단계; 를 포함한다.
본 발명의 일실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템은 서버 및 사용자 장치를 포함하고, 상기 서버는: (a) 복수의 고위험 커뮤니티의 목록을 고위험 커뮤니티 데이터베이스에 저장하고; (b) 기 발생한 언어 위기 관리 사례에 기초하여, 논란이 된 어휘인 고위험 어휘의 목록을 고위험 어휘 데이터베이스에 저장하고; (c) 상기 고위험 어휘 데이터베이스에 저장된 각 어휘에 대하여, 상기 복수의 고위험 커뮤니티 중 각각에서의 사용 빈도를, 커뮤니티 풀에서의 사용 빈도로 나눈 값인 상대 사용 빈도를 산출하고 - 상기 커뮤니티 풀은 상기 복수의 고위험 커뮤니티 및 저위험 커뮤니티를 포함함 -; (d) 상기 기 발생한 언어 위기 관리 사례 및 상기 (c) 단계에서 산출된 상기 상대 사용 빈도에 기초하여, 임의의 어휘에 대하여 리스크 발생 확률을 계산하는 제1 인공지능 모델을 생성하고; (e) 사용자 장치로부터 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하고; (f) 상기 텍스트에 포함되는 복수의 어휘를 추출하고; (g) 상기 텍스트에 포함되는 복수의 어휘 중 각각에 대하여, 상기 상대 사용 빈도를 산출하고, 상대 사용 빈도 및 제1 인공지능 모델에 기초하여 리스크 발생 확률을 계산하고; (h) 상기 텍스트에 포함되는 복수의 어휘 중 상기 (g) 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 상기 사용자 장치에 전송 하도록 구성되고, 상기 사용자 장치는: 상기 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 표시하되, 상기 텍스트에 포함되는 복수의 어휘 중 상기 제1 어휘를 상기 텍스트에 포함되는 나머지 어휘와 시각적으로 다르게 표시하고; 상기 사용자 장치에서, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 표시할 수 있는 사용자 인터페이스를 표시하고; 상기 사용자 인터페이스에 대한 사용자의 입력에 기초하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 표시하도록 구성된다.
본 발명의 일실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 방법은, 인터넷상의 커뮤니티 공간의 개수도 많으며, 신조어가 끊임없이 발생하므로 고위험 커뮤니티에서 유래한 어휘를 분간하기가 점점 어려워짐에도 불구하고, 인터넷 상의 신조어를 잘 아는 직원의 경험적 지식에 의존하지 않고 효율적으로 언어 위기를 관리하는 데 기여할 수 있다.
도 1은 본 발명의 다양한 실시예에 따른 영상 컨텐츠를 위한 언어 위기 관리 시스템을 도시한다.
도 2는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 구성요소를 도시한다.
도 3은 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버에서 수행되는 방법을 도시한다.
도 4는 본 발명의 다양한 실시예에 따른 방법에서 인공지능 모델에 입력되는 데이터와 인공지능 모델에서 출력되는 데이터를 도시한다.
도 5는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 기능적 구조를 도시한다.
도 2는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 구성요소를 도시한다.
도 3은 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버에서 수행되는 방법을 도시한다.
도 4는 본 발명의 다양한 실시예에 따른 방법에서 인공지능 모델에 입력되는 데이터와 인공지능 모델에서 출력되는 데이터를 도시한다.
도 5는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 기능적 구조를 도시한다.
본 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 본 명세서의 다양한 실시예들 및 이에 사용된 용어들은 본 명세서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 명세서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, " 연결된다"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 명세서의 다양한 실시예들은 기기(machine)의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리 또는 외장 메모리)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일실시예에 따르면, 본 명세서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.
도 1은 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템(100)을 도시한다. 도 1을 참조하면, 영상 컨텐츠를 위한 언어 위기 관리 시스템(100)은 서버(110) 및 사용자 장치(120)를 포함할 수 있다.
서버(110)는 인공지능 모델에 기반하여 영상 컨텐츠에 포함되는 음성 및 자막에 대응되는 텍스트를 분석하고, 텍스트에 포함된 어휘들 중 리스크 발생 확률이 높은 어휘를 결정할 수 있다. 본 명세서에서, 다른 수식어 없이 '텍스트'라는 용어는 영상 컨텐츠에 포함되는 음성 및 자막에 대응되는 텍스트를 의미한다.
다양한 실시예에 따라서, 서버(110)는 텍스트에 포함된 어휘들 중 리스크 발생 확률이 제1 임계값 이상인 어휘가 무엇인지에 대한 정보를 사용자 장치(120)에 제공할 수 있다. 사용자 장치(120)는 텍스트에 포함되는 복수의 어휘 중 제1 어휘를 텍스트에 포함되는 나머지 어휘와 시각적으로 다르게 표시할 수 있다.
다양한 실시예에 따라서, 서버(110)는 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 제1 어휘의 상기 상대 사용 빈도, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 사용자 장치(120)에 제공할 수 있다. 사용자 장치(120)는 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 제1 어휘의 상기 상대 사용 빈도, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 제공하기 위한 사용자 인터페이스를 표시하고, 사용자 인터페이스에 대한 사용자의 입력에 따라 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 제1 어휘의 상기 상대 사용 빈도, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 표시할 수 있다.
본 명세서에서 고위험 커뮤니티란, 극단적인 정치 성향 또는 반사회적 게시글이 게시되는 등의 이유로, 해당 커뮤니티에서 유행하는 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용되는 경우 다수 시청자들의 반감을 불러일으킬 수 있는 커뮤니티를 의미한다.
본 명세서에서 커뮤니티란, 인터넷 공간에서 사람들이 모인 어떠한 공간으로도 정의될 수 있다. 예를 들어, 유튜브의 특정 채널의 컨텐츠 및 컨텐츠에 달린 댓글들의 집합이 하나의 커뮤니티로 정의될 수 있다. 예를 들어, 특정 사이트 전체가 하나의 커뮤니티로 정의될 수도 있고, 특정 사이트의 특정한 한 게시판이 하나의 커뮤니티로 정의될 수 있다.
본 명세서에서 언어 위기 관리 사례란, 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용되었으나 다수 시청자들의 반감을 불러일으키지 않은 사례 또는 고위험 커뮤니티에서 유행하는 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용되어 다수 시청자들의 반감을 불러일으킨 사례를 의미한다. 언어 위기 관리 사례는 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용된 것에 대하여 영상 컨텐츠 제작자가 컨텐츠 소비자에게 사과한 사례에 관한 인터넷 아티클 및 영상 컨텐츠 내에서 사용된 밈, 신조어, 또는 특정한 언어 습관 전체의 데이터베이스를 포함할 수 있다.
본 명세서에서 언어 위기 관리 실패 사례란, 고위험 커뮤니티에서 유행하는 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용되어 다수 시청자들의 반감을 불러일으킨 사례를 의미한다.
본 명세서에서 고위험 어휘란, 언어 위기 관리 실패 사례에서 사용된, 고위험 커뮤니티에서 유행하는 밈, 신조어, 또는 특정한 언어 습관을 포함할 수 있다. 리스크 발생 확률이 제1 임계값 이상인 제1 어휘가 사용자 장치에 제공되었을 때, 사용자 장치의 사용자가 제1 어휘를 고위험 어휘로 지정하는 경우, 제1 어휘는 고위험 어휘로 정의되어 고위험 어휘 데이터베이스에 저장될 수 있다. 사용자 장치(120)를 통한 사용자의 직접적인 입력에 의해서도 새로운 어휘가 고위험 어휘 데이터베이스에 추가될 수 있다.
서버(110)에서 수행되는, 인공지능 모델에 기반하여 영상 컨텐츠에 포함되는 음성 및 자막에 대응되는 텍스트를 분석하기 위한 방법에 대해서는 도 3을 참조하여 후술한다.
다양한 실시예에 따라서, 사용자 장치(120)는 영상 컨텐츠 제작자가 이용하는 전자 장치일 수 있다. 예를 들어, 사용자 장치(120)는 영상 컨텐츠의 편집자가 이용하는 전자 장치일 수 있다. 사용자 장치(120)의 종류는 제한되지 않는다. 예를 들어, 사용자 장치(120)는 컴퓨터, 스마트폰, 태블릿 PC, 또는 웨어러블 디바이스일 수 있다.
도 2는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 구성요소를 도시한다. 도 2를 참조하면 서버(110)는 통신 회로(210), 프로세서(220), 및 메모리(230)를 포함할 수 있다. 통신 회로(210)는 다른 전자 장치에 정보를 송신하거나 다른 전자 장치로부터 정보를 수신할 수 있고, 통신 회로(210)가 지원하는 통신의 종류는 제한되지 않는다.
프로세서(220)는 통신 회로(210)를 통하여 수신된 데이터 및/또는 메모리(230)에 저장된 데이터에 기초하여 연산을 수행하고, 연산의 결과의 적어도 일부를 통신 회로(210)를 통하여 다른 전자 장치에 송신하거나, 메모리(230)에 저장할 수 있다.
프로세서(220)는 데이터 학습부(221) 및 데이터 인식부(222)를 포함할 수 있다. 데이터 학습부(221)는 분석 대상 어휘의 리스크 발생 확률을 예측하기 위한 인공 지능 모델을 생성할 수 있다. 데이터 인식부(222)는 데이터를 전처리하고, 전처리된 데이터를 데이터 학습부(221)에 학습을 위하여 제공할 수 있다.
데이터 학습부(221) 및 데이터 인식부(222) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, AP 또는 CPU) 또는 그래픽 전용 프로세서의 일부로서 구현될 수도 있다.
다양한 실시예에 따라서, 도 2에서 데이터 학습부(221) 및 데이터 인식부(222)가 서버(110)에 포함된 것으로 표현된 것과 달리, 데이터 학습부(221) 및 데이터 인식부(222)는 별개의 전자 장치에 각각 탑재될 수 있다.
이 경우, 데이터 학습부(221) 및 데이터 인식부(222)는 유선 또는 무선으로 서로 연결되어, 데이터 학습부(221)에서 생성된 모델 정보가 데이터 인식부(222)에 제공되거나, 데이터 인식부(222)에 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(221)에 제공될 수 있다.
데이터 학습부(221) 및 데이터 인식부(222) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 이 경우, 소프트웨어 모듈은 컴퓨터로 판독 가능한 비일시적 기록 매체에 저장될 수 있다. 소프트웨어 모듈의 적어도 일부는 OS(operating system)에 의해 제공되거나, 소정의 어플리케이션에 의하여 제공될 수 있다.
도 3은 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버에서 수행되는 방법을 도시한다.
310 단계에서, 서버(110)는 복수의 고위험 커뮤니티의 목록을 고위험 커뮤니티 데이터베이스에 저장하고, 고위험 어휘의 목록을 고위험 어휘 데이터베이스에 저장할 수 있다.
서버(110)는 언어 위기 관리 실패 사례의 데이터베이스를 포함할 수 있다. 언어 위기 관리 실패 사례의 데이터베이스는 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용된 것에 대하여 영상 컨텐츠 제작자가 컨텐츠 소비자에게 사과한 사례에 관한 인터넷 아티클을 포함할 수 있다. 서버(110)는 언어 위기 관리 실패 사례의 데이터베이스에 포함된 각 언어 위기 관리 실패 사례에서 문제된 표현이 유행하는 것으로 언급된 커뮤니티를 고위험 커뮤니티 데이터베이스에 저장할 수 있다. 서버(110)는 사용자 장치(120)를 통한 사용자 입력에 기초하여 임의의 커뮤니티를 고위험 커뮤니티 데이터베이스에 저장할 수 있다.
서버(110)는 언어 위기 관리 실패 사례의 데이터베이스에 포함된 각 언어 위기 관리 실패 사례에서 문제된 표현을 고위험 어휘 데이터베이스에 저장할 수 있다.
320 단계에서, 서버(110)는 고위험 어휘 데이터베이스에 포함된 각각의 고위험 어휘에 대하여, 복수의 고위험 커뮤니티 내에서의 상대 사용 빈도를 산출할 수 있다.
본 명세서에서 특정한 어휘의 특정 커뮤니티 내에서의 상대 사용 빈도란, 특정한 어휘가 특정 커뮤니티 내에서 사용된 빈도를, 특정한 어휘가 커뮤니티 풀 전체에서의 사용된 빈도로 나눈 값을 의미한다. 특정한 어휘의 특정 커뮤니티 내에서의 사용 빈도는, 특정 어휘가 특정 커뮤니티 내에서 사용된 횟수를 특정 커뮤니티 내의 분석 대상 단어 수로 나눈 값으로 정의될 수 있다. 분석 대상 단어 수는 커뮤니티 내에 게시된 글 및 댓글을 포함하는 모든 컨텐츠의 단어 수를 의미하며, 여러 번 언급되는 단어가 있더라도 언급되는 횟수만큼 모두 카운팅하는 것은 물론이다. 예를 들어, A 커뮤니티에 게시된 글 및 댓글이 총 3000만 개의 단어이고, 그 중 a 어휘가 1만 번 언급되었다면, a 어휘의 A 커뮤니티에서의 사용 빈도는 3000분의 1이다. 달리 말하면, 특정한 어휘의 특정 커뮤니티 내에서의 사용 빈도는 특정 어휘가 특정 커뮤니티 내에서 얼마나 자주 언급되었는지를 나타내는 지표일 수 있다. a 어휘의 A 커뮤니티에서의 사용 빈도가 3000분의 1이라는 것은 A 커뮤니티 내에서 평균적으로 3000개의 단어마다 한 번 꼴로 a 어휘가 언급되었다는 것을 나타낸다. 본 명세서에서 커뮤니티 풀이란, 복수의 고위험 커뮤니티 및 복수의 저위험 커뮤니티를 포함할 수 있다. 커뮤니티 풀은 위험 여부와 무관하게 모든 인터넷 커뮤니티를 포함할 수 있다. 특정한 커뮤니티가 일반적으로 특정한 그룹의 사람들을 대변하는 것과는 대조적으로, 커뮤니티 풀은 이상적으로는 모든 커뮤니티를 이용하는 모든 사람들을 총괄적으로 대변할 수 있다.
330 단계에서, 서버(110)는 기 발생한 언어 위기 관리 사례 및 상대 사용 빈도에 기초하여, 제1 인공지능 모델을 생성할 수 있다. 제1 인공지능 모델은 임의의 어휘에 대하여 리스크 발생 확률을 출력할 수 있다.
제1 인공지능 모델의 입력 데이터와 출력 데이터는 도 4에 도시된다. 도 4를 참조하면, 제1 인공지능 모델은 분석 대상 어휘의, 고위험 커뮤니티 데이터베이스에 포함된 각각의 고위험 커뮤니티 내에서의 상대 사용 빈도를 입력값으로 하고, 상대 사용 빈도에 기초하여 분석 대상 어휘의 리스크 발생 확률을 출력할 수 있다.
서버(110)는 고위험 커뮤니티 데이터베이스 및 언어 위기 관리 사례 데이터베이스에 기초하여 제1 인공지능 모델을 생성할 수 있다. 언어 위기 관리 사례 데이터베이스는 영상 컨텐츠 내에서 사용된 어휘 전체의 데이터베이스 및 언어 위기 관리 실패 사례, 즉, 밈, 신조어, 또는 특정한 언어 습관이 영상 컨텐츠 내에서 사용된 것에 대하여 영상 컨텐츠 제작자가 컨텐츠 소비자에게 사과한 사례에 관한 인터넷 아티클들을 포함할 수 있다. 서버(110)는 영상 컨텐츠 내에서 사용된 어휘 전체의 데이터베이스 내에서 언어 위기 관리 실패 사례와 관련된 어휘인 고위험 어휘를 선별하고, 영상 컨텐츠 내에서 사용된 어휘 전체의 데이터베이스 내에서 고위험 어휘를 제외한 나머지 어휘를 저위험 어휘로 분류할 수 있다.
서버(110)는 고위험 어휘에 대하여 320 단계를 수행할 뿐 아니라, 저위험 어휘에 대해서도 고위험 커뮤니티 각각에서의 상대 사용 빈도를 산출할 수 있다. 제1 인공지능 모델은 고위험 어휘 및 저위험 어휘의 고위험 커뮤니티 각각에서의 상대 사용 빈도 및 고위험 어휘에 대하여 영상 컨텐츠 제작자가 컨텐츠 소비자에게 사과하였는지 여부에 기초한 학습을 통해서 생성될 수 있다.
다양한 실시예에 따라서, 서버(110)는 각각의 언어 위기 관리 실패 사례에 대하여, 관련된 인터넷 아티클의 개수를 결정하고, 인터넷 아티클의 수가 많을수록 리스크가 높은 것으로 데이터를 가공하고, 가공된 데이터에 기초하여 학습을 수행할 수 있다. 예를 들어, 서버(110)는 각각의 언어 위기 관리 실패 사례들 중 관련된 인터넷 아티클이 가장 많은 사례에서의 인터넷 아티클 수를 최대 아티클 수로 정의하고, 각각의 언어 위기 관리 실패 사례들에 대하여, 관련된 인터넷 아티클의 수를 최대 아티클 수로 나눈 값을 리스크 발생 확률로 결정할 수 있다. 서버(110)는 저위험 어휘에 대해서는 리스크 발생 확률을 0으로 정의할 수 있다. 서버(110)는 각 어휘에 대하여, 고위험 커뮤니티 데이터베이스에 포함되는 고위험 커뮤니티 각각에서의 상대 사용 빈도와 리스크 발생 확률을 포함하는 데이터셋을 저장하고, 저장된 데이터셋에 기초하여 학습을 수행할 수 있다.
제1 인공지능 모델을 생성하기 위한 학습 방법은 제한되지 않는다. 예를 들어, 제1 인공지능 모델은 다양한 머신 러닝 기법에 의하여 생성될 수 있다. 예를 들어, RNN(Recurrent Neural Network), CNN(Convolution Neural Network), ANN(Artificial Neural Network), 및 트랜스포머 모델 중 적어도 하나가 제1 인공지능 모델의 생성을 위한 학습에 이용될 수 있다.
340 단계에서, 서버(110)는 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트에 포함되는 복수의 어휘를 추출할 수 있다.
340 단계는 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하는 단계 및 텍스트로부터 분석 대상 어휘를 추출하는 단계로 나뉘어질 수 있다.
영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하는 단계는 다양한 방식으로 실시될 수 있다. 다양한 실시예에 따라서, 서버(110)는 사용자 장치(120)로부터 영상 컨텐츠를 획득하고, 획득한 영상 컨텐츠로부터 음성을 추출하고, 추출된 음성에 대하여 STT(speech to text) 기술을 이용하여 음성에 대응하는 텍스트를 획득하고, 획득한 영상 컨텐츠에 대해 문자 인식 프로세스(예를 들어, 광학 문자 인식)를 수행함으로써 자막에 대응하는 텍스트를 획득할 수 있다. 다양한 실시예에 따라서, 서버(110)는 사용자 장치(120)로부터 영상 컨텐츠에 포함되는 음성 및 자막을 각각 따로 획득한 후, 획득된 음성에 대하여 STT를 수행할 수 있다. 다양한 실시예에 따라서, 서버(110)는 사용자 장치(120)로부터 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득할 수 있다.
서버(110)는 텍스트로부터 분석 대상 어휘를 추출하기 위하여 다양한 자연언어 처리 기술을 이용할 수 있다. 예를 들어, 서버(110)는 형태소 분석을 통하여 문장 형태의 텍스트를 형태소 단위로 파싱하고, 형태소들 중 실질적인 의미를 가지고 구체적인 대상이나 동작을 표시하는 형태소인 실질 형태소만을 분석 대상 어휘로 정의할 수 있다. 명사, 대명사, 수사, 관형사, 부사, 감탄사, 어간, 및 어근이 실질 형태소에 포함된다. 실질 형태소에 결합하여 말과 말 사이의 관계를 형식적으로 표시하는 형태소, 예를 들어, 조사, 접사, 어미는 형식 형태소에 포함된다. 다른 실시예에서, 서버(110)는 텍스트에 포함된 형태소들 중 실질 형태소 및 실질 형태소와 형식 형태소가 결합된 단어를 모두 분석 대상 어휘로 정의할 수 있다.
350 단계에서, 서버(110)는 340 단계에서 추출된 어휘, 즉, 분석 대상 어휘 각각에 대하여, 고위험 커뮤니티 데이터베이스에 포함된 복수의 고위험 커뮤니티 각각에서의 상대 사용 빈도를 산출할 수 있다.
360 단계에서, 서버(110)는 제1 인공지능 모델 및 350 단계에서 산출된 상대 사용 빈도에 기초하여 분석 대상 어휘 각각에 대하여 리스크 발생 확률을 계산할 수 있다.
비록 도 3에는 도시되지 않았으나, 서버(110)는 분석 대상 어휘 중 360 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 어휘가 무엇인지와, 해당 어휘의 리스크 발생 확률을 사용자 장치(120)에 전송할 수 있다.
비록 도 3에는 도시되지 않았으나, 서버(110)는 분석 대상 어휘 중 360 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 어휘에 대해서는, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서의 상대 사용 빈도, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 해당 어휘를 검색하였을 때 검색 결과를 사용자 장치(120)에 전송할 수 있다.
다양한 실시예에 따라서, 사용자 장치(120)는 텍스트 전체를 표시하되, 리스크 발생 확률이 제1 임계값 이상인 어휘를 나머지 부분과 시각적으로 다르게 표시할 수 있다. 다양한 실시예에 따라서, 사용자 장치(120)는 시각적으로 상이하게 표시된 어휘에 사용자가 마우스 오버 또는 클릭 입력을 하면 해당 어휘의 리스크 발생 확률, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서의 상대 사용 빈도, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 해당 어휘를 검색하였을 때 검색 결과 중 적어도 하나를 표시하기 위한 사용자 인터페이스를 제공할 수 있다. 다양한 실시예에 따라서, 사용자 장치(120)는 사용자 인터페이스에 대한 사용자 입력에 기초하여, 해당 어휘의 리스크 발생 확률, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서의 상대 사용 빈도, 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 해당 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 해당 어휘를 검색하였을 때 검색 결과 중 적어도 하나를 표시할 수 있다.
사용자 장치의 사용자는 인터페이스에 표시된 정보에 기초하여 리스크 발생 확률이 제1 임계값 이상인 각각의 어휘를 수정할 것인지 아니면 영상 컨텐츠 내에 포함시킬 것인지를 결정할 수 있다. 사용자 장치(120)는 사용자가 리스크 발생 확률이 제1 임계값 이상인 어휘 각각을 삭제 또는 수정하였는지 여부를 서버(110)에 알릴 수 있고, 서버(110)는 사용자가 삭제 또는 수정한 어휘는 고위험 어휘로 정의하여 고위험 어휘 데이터베이스에 저장할 수 있다. 사용자 장치(120)는 리스크 발생 확률이 제1 임계값 이상인 어휘를 삭제 또는 수정할 것인지 여부를 입력받기 위한 사용자 인터페이스를 표시할 수 있다.
도 5는 본 발명의 다양한 실시예에 따른, 영상 컨텐츠를 위한 언어 위기 관리 시스템에 포함되는 서버의 기능적 구조를 도시한다. 도 5를 참조하면, 서버(110)는 고위험 어휘 데이터베이스, 커뮤니티 관련 사건사고 데이터베이스, 언어 위기 관리 사례 데이터베이스, 고위험 커뮤니티 데이터베이스, 고위험 커뮤니티 선별부, 리스크 예측 모델 생성부, 및 리스크 예측 모델 생성부에 의하여 생성된 제1 인공지능 모델을 포함할 수 있다. 고위험 어휘 데이터베이스, 언어 위기 관리 사례 데이터베이스, 및 고위험 커뮤니티 데이터베이스에 대해서는 상술한 바 있다. 또한 리스크 예측 모델 생성부가 고위험 커뮤니티 데이터베이스 및 언어 위기 관리 사례 데이터베이스에 기초하여 제1 인공지능 모델을 생성하는 과정에 대해서는 도 3의 330 단계를 참조하여 상술한 바 있다.
고위험 커뮤니티 선별부는 고위험 어휘 데이터베이스에 기초하여 고위험 커뮤니티 데이터베이스에 새롭게 추가될 고위험 커뮤니티를 판별할 수 있다.
다양한 실시예에 따라서, 고위험 커뮤니티 선별부는 커뮤니티 풀에 포함되어 있지 않은 새로운 커뮤니티인 제1 커뮤니티에 대하여, 고위험 어휘 각각의 상대 사용 빈도를 산출할 수 있다. 커뮤니티 풀에 포함되어 있지 않은 제1 커뮤니티에서 특정한 제2 어휘의 상대 사용 빈도는, 제2 어휘의 제1 커뮤니티에서의 사용 빈도를, 제1 커뮤니티 및 커뮤니티 풀에서의 사용 빈도로 나눈 값으로 정의될 수 있다. 예를 들어, 제1 커뮤니티 내에서는 고위험 어휘인 a가 100회 사용되고, 제1 커뮤니티 내의 총 단어 수는 50만 개일 수 있다. 이 경우, a 어휘의 제1 커뮤니티 내에서의 사용 빈도는 5000분의 1이다. 커뮤니티 풀에서는 a 어휘가 900회 사용되고, 커뮤니티 풀 내의 총 단어 수는 2950만 개일 수 있다. 이 경우, a어휘의 제1 커뮤니티 및 커뮤니티 풀에서의 사용 빈도는 (100회+900회)/(50만 단어+2950만 단어)= 30000분의 1 이다. 제1 커뮤니티에서 a 어휘의 상대 사용 빈도는 (5000분의 1)/(30000분의 1), 즉, 6이다.
다양한 실시예에 따라서, 고위험 커뮤니티 선별부는 고위험 어휘 데이터베이스에 포함된 고위험 어휘 각각에 대하여 제1 커뮤니티에서의 상대 사용 빈도 및 고위험 커뮤니티 데이터베이스에 포함된 각각의 고위험 커뮤니티에서의 상대 사용 빈도를 산출할 수 있다. 그 후, 고위험 커뮤니티 선별부는 고위험 어휘의 상대 사용 빈도가 얼마나 유사한지에 따라 제1 커뮤니티가 고위험 커뮤니티들과 얼마나 유사한지를 판단할 수 있다.
예를 들어, 고위험 어휘 데이터베이스에 (a1, a2, …, aN)의 N개의 고위험 어휘가 포함되어 있는 경우, 고위험 커뮤니티 선별부는 커뮤니티 풀에 포함되어 있지 않은 제1 커뮤니티와 고위험 커뮤니티 (B1,B2,…,Bm) 중 하나인 제2 커뮤니티 사이의 거리 를 수학식 1과 같이 산출할 수 있다.
수학식 1에서, A는 커뮤니티 풀에 포함되어 있지 않은 제1 커뮤니티, 는 고위험 커뮤니티(B1,B2,…,Bm) 중 하나인 제2 커뮤니티를 나타내고,는 제1 커뮤니티와 제2 커뮤니티 사이의 거리이다.는 어휘 ai의 제1 커뮤니티 내에서의 상대 사용 빈도, 는 어휘 ai의 제2 커뮤니티 내에서의 상대 사용 빈도이다.
다양한 실시예에 따라서, 고위험 커뮤니티 선별부는 부터 의 값, 즉, 고위험 커뮤니티 각각에 대하여 제1 커뮤니티와의 거리를 산출하고, 제1 커뮤니티와의 거리가 제2 임계값 이하인 고위험 커뮤니티 가 존재하는 경우, 제1 커뮤니티를 와 연관된 커뮤니티로 정의하고, 제1 커뮤니티를 고위험 커뮤니티 데이터베이스에 저장할 수 있다.
다른 예시에서, 고위험 어휘 데이터베이스에 (a1, a2, …, aN)의 N개의 고위험 어휘가 포함되어 있는 경우, 고위험 커뮤니티 선별부는 커뮤니티 풀에 포함되어 있지 않은 제1 커뮤니티와 고위험 커뮤니티 (B1,B2,…,Bm) 중 하나인 제2 커뮤니티 사이의 거리 를 수학식 2와 같이 산출할 수 있다.
수학식 2에서, 는 가 제3 임계값 이상이면 0, 가 제3 임계값 미만이면 1의 값을 갖는다. 고위험 커뮤니티 선별부는 고위험 커뮤니티 선별부는 수학식 2를 이용하여 부터 의 값, 즉, 고위험 커뮤니티 각각에 대하여 제1 커뮤니티와의 거리를 산출하고, 제1 커뮤니티와의 거리가 제4 임계값 이하인 고위험 커뮤니티 가 존재하는 경우, 제1 커뮤니티를 와 연관된 커뮤니티로 정의하고, 제1 커뮤니티를 고위험 커뮤니티 데이터베이스에 저장할 수 있다.
다양한 실시예에 따라서, 서버(110)는 텍스트에 포함되는 복수의 어휘 중 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티와 연관된 제2 고위험 커뮤니티의 이름, 및 상기 제2 고위험 커뮤니티에서 제1 어휘의 상대 사용 빈도를 사용자 장치(120)에 전송할 수 있다. 사용자 장치(120)는 텍스트에 포함되는 복수의 어휘 중 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티와 연관된 제2 고위험 커뮤니티의 이름, 및 상기 제2 고위험 커뮤니티에서 제1 어휘의 상대 사용 빈도를 표시할 수 있는 사용자 인터페이스를 표시할 수 있다. 사용자 장치(120)는 사용자 인터페이스에 대한 사용자의 입력에 기초하여, 제1 어휘의 상대 사용 빈도가 가장 높은 고위험 커뮤니티와 연관된 제2 고위험 커뮤니티의 이름, 및 상기 제2 고위험 커뮤니티에서 제1 어휘의 상대 사용 빈도를 표시할 수 있다.
다양한 실시예에 따라서, 고위험 커뮤니티 선별부는 사용자 장치(120)를 통한 사용자의 입력에 기초하여 고위험 커뮤니티인지 아닌지를 판별할 대상을 확인할 수 있다.
다양한 실시예에 따라서, 고위험 커뮤니티 선별부는 커뮤니티 관련 사건사고 데이터베이스에 기초하여 고위험 커뮤니티인지 아닌지를 판별할 대상을 자동으로 선정할 수 있다. 고위험 커뮤니티 선별부는 커뮤니티명과 사건사고를 나타내는 키워드(예를 들어, 범죄, 보이콧, 논란과 관련된 미리 설정된 키워드)가 함께 언급된 인터넷 아티클을 검색하여 커뮤니티 관련 사건사고 데이터베이스에 저장하고, 커뮤니티 관련 사건사고 데이터베이스 내에서 제2 개수 이상의 인터넷 아티클과 연관된 커뮤니티에 대해서 고위험 커뮤니티인지 아닌지 판별을 진행할 수 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
Claims (5)
- 영상 컨텐츠를 위한 언어 위기 관리 시스템에서 수행되는 방법에 있어서:
(a) 서버에 의하여, 복수의 고위험 커뮤니티의 목록을 고위험 커뮤니티 데이터베이스에 저장하는 단계;
(b) 상기 서버에 의하여, 기 발생한 언어 위기 관리 사례에 기초하여, 고위험 어휘의 목록을 고위험 어휘 데이터베이스에 저장하는 단계;
(c) 상기 서버에 의하여, 상기 고위험 어휘 데이터베이스에 저장된 각 어휘에 대하여, 상기 복수의 고위험 커뮤니티 중 각각에서의 사용 빈도를, 커뮤니티 풀에서의 사용 빈도로 나눈 값인 상대 사용 빈도를 산출하는 단계 - 상기 커뮤니티 풀은 상기 복수의 고위험 커뮤니티 및 복수의 저위험 커뮤니티를 포함함 -;
(d) 상기 서버에 의하여, 상기 기 발생한 언어 위기 관리 사례 및 상기 (c) 단계에서 산출된 상기 상대 사용 빈도에 기초하여, 임의의 어휘에 대하여 리스크 발생 확률을 계산하는 제1 인공지능 모델을 생성하는 단계;
(e) 상기 서버가 사용자 장치로부터 영상 컨텐츠에 포함되는 자막 및 음성에 대응하는 텍스트를 획득하는 단계;
(f) 상기 서버가 상기 텍스트에 포함되는 복수의 분석 대상 어휘를 추출하는 단계;
(g) 상기 서버가 상기 텍스트에 포함되는 복수의 분석 대상 어휘 중 각각에 대하여, 상기 복수의 고위험 커뮤니티에서의 상기 상대 사용 빈도를 각각 산출하고, 상대 사용 빈도 및 제1 인공지능 모델에 기초하여 리스크 발생 확률을 계산하는 단계;
(h) 상기 서버가, 상기 텍스트에 포함되는 복수의 분석 대상 어휘 중 상기 (g) 단계에서 계산된 리스크 발생 확률이 제1 임계값 이상인 제1 어휘에 대하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 상기 사용자 장치에 전송하는 단계;
(i) 상기 사용자 장치에서, 상기 텍스트에 포함되는 복수의 분석 대상 어휘 중 상기 제1 어휘를 상기 텍스트에 포함되는 나머지 어휘와 시각적으로 다르게 표시하는 단계;
(j) 상기 사용자 장치에서, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 표시할 수 있는 사용자 인터페이스를 표시하는 단계;
(k) 상기 사용자 인터페이스에 대한 사용자의 입력에 기초하여, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티의 이름, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘의 상기 상대 사용 빈도, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에 관한 언어 위기 관리 실패 사례, 및 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티에서 상기 제1 어휘를 검색하였을 때 검색 결과를 표시하는 단계;
(l) 상기 고위험 어휘 데이터베이스에 포함된 고위험 어휘 각각에 대하여, 상기 커뮤니티 풀에 포함되어 있지 않은 제1 커뮤니티에서의 상대 사용 빈도 및 상기 고위험 커뮤니티 데이터베이스에 포함된 각각의 고위험 커뮤니티에서의 상대 사용 빈도를 산출하는 단계;
(m) 상기 (l) 단계에서 산출된, 상기 고위험 어휘 각각의 상기 제1 커뮤니티에서의 상대 사용 빈도 및 상기 각각의 고위험 커뮤니티에서의 상대 사용 빈도에 기초하여, 상기 제1 커뮤니티와 상기 각각의 고위험 커뮤니티 사이의 거리를 산출하는 단계; 및
(n) 상기 제1 커뮤니티와 상기 복수의 고위험 커뮤니티 중 제1 고위험 커뮤니티 사이의 거리가 제2 임계값 이하인 경우, 상기 제1 커뮤니티를 상기 제1 고위험 커뮤니티와 연관된 커뮤니티로 정의하고, 상기 제1 커뮤니티를 상기 고위험 커뮤니티 데이터베이스에 저장하는 단계
를 포함하고,
상기 고위험 어휘 데이터베이스에 (a1, a2, …, aN)의 N개의 고위험 어휘가 포함되어 있는 경우, 상기 제1 커뮤니티와 상기 복수의 고위험 커뮤니티 중 하나인 제1 고위험 커뮤니티 사이의 거리는
로 정의되고,
는 어휘 ai의 상기 제1 커뮤니티 내에서의 상대 사용 빈도, 는 어휘 ai의 상기 제1 고위험 커뮤니티 내에서의 상대 사용 빈도이고,
어휘 ai의 상기 제1 커뮤니티 내에서의 상대 사용 빈도는 어휘 ai의 제1 커뮤니티에서의 사용 빈도를, 상기 제1 커뮤니티 및 상기 커뮤니티 풀에서의 사용 빈도로 나눈 값인, 방법. - 제1항에 있어서,
상기 사용자 장치에서, 상기 제1 어휘를 영상 컨텐츠로부터 삭제할 것인지를 확인하기 위한 인터페이스를 표시하는 단계, 및
상기 사용자 장치에 대한 사용자 입력에 기초하여, 상기 제1 어휘를 영상 컨텐츠에서 삭제하였음을 상기 사용자 장치가 상기 서버에 알리는 단계를 더 포함하는 방법. - 제2항에 있어서,
상기 서버에 의하여, 상기 제1 어휘를 영상 컨텐츠에서 삭제되었다고 확인되는 것에 기초하여, 상기 제1 어휘를 상기 고위험 어휘 데이터베이스에 저장하는 단계를 더 포함하는 방법. - 제1항에 있어서,
상기 서버에서, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티와 연관된 고위험 커뮤니티의 이름을 상기 사용자 장치에 전송하는 단계를 더 포함하는 방법. - 제1항에 있어서,
상기 서버에서, 상기 제1 어휘의 상기 상대 사용 빈도가 가장 높은 고위험 커뮤니티와 연관된 고위험 커뮤니티 내에서 상기 제1 어휘의 상대 사용 빈도를 상기 사용자 장치에 전송하는 단계를 더 포함하는 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220010605 | 2022-01-25 | ||
KR20220010605 | 2022-01-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102422844B1 true KR102422844B1 (ko) | 2022-07-20 |
Family
ID=82609225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220058847A KR102422844B1 (ko) | 2022-01-25 | 2022-05-13 | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102422844B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973380A (zh) * | 2024-04-01 | 2024-05-03 | 湖南大学 | 一种文本生成方法、装置、计算机设备和储存介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250915A (ja) * | 1999-02-25 | 2000-09-14 | Shogakukan Inc | 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR102350359B1 (ko) * | 2021-06-18 | 2022-01-12 | 노마드웍스 주식회사 | 음성 인식 알고리즘을 이용한 영상 편집 방법 |
-
2022
- 2022-05-13 KR KR1020220058847A patent/KR102422844B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250915A (ja) * | 1999-02-25 | 2000-09-14 | Shogakukan Inc | 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR102350359B1 (ko) * | 2021-06-18 | 2022-01-12 | 노마드웍스 주식회사 | 음성 인식 알고리즘을 이용한 영상 편집 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973380A (zh) * | 2024-04-01 | 2024-05-03 | 湖南大学 | 一种文本生成方法、装置、计算机设备和储存介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US9792279B2 (en) | Methods and systems for analyzing communication situation based on emotion information | |
CN110928994B (zh) | 相似案例检索方法、相似案例检索装置和电子设备 | |
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
US20190311709A1 (en) | Computerized system and method for formatted transcription of multimedia content | |
US11762926B2 (en) | Recommending web API's and associated endpoints | |
US8140530B2 (en) | Similarity calculation device and information search device | |
US20160210962A1 (en) | Methods and systems for analyzing communication situation based on dialogue act information | |
JP5945062B2 (ja) | データ処理装置および物語モデル構築方法 | |
CN111198939B (zh) | 语句相似度的分析方法、装置及计算机设备 | |
EP3113174A1 (en) | Method for building a speech feature library, method, apparatus, and device for speech synthesis | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
US9632998B2 (en) | Claim polarity identification | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
JP2022169757A (ja) | 探索装置、探索方法及び探索プログラム | |
JP7355865B2 (ja) | ビデオ処理方法、装置、デバイスおよび記憶媒体 | |
Khan | Improved multi-lingual sentiment analysis and recognition using deep learning | |
CN105989067A (zh) | 从图片生成文本摘要的方法、用户设备及训练服务器 | |
WO2024020416A1 (en) | Systems and methods for real-time search based generative artificial intelligence | |
JP6486165B2 (ja) | 候補キーワード評価装置及び候補キーワード評価プログラム | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
CN117421413A (zh) | 一种问答对生成方法、装置及电子设备 | |
CN114120166A (zh) | 视频问答方法、装置、电子设备及存储介质 | |
US20190354589A1 (en) | Data analyzer and data analysis method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |