KR20170048736A - 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 - Google Patents

문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 Download PDF

Info

Publication number
KR20170048736A
KR20170048736A KR1020150149190A KR20150149190A KR20170048736A KR 20170048736 A KR20170048736 A KR 20170048736A KR 1020150149190 A KR1020150149190 A KR 1020150149190A KR 20150149190 A KR20150149190 A KR 20150149190A KR 20170048736 A KR20170048736 A KR 20170048736A
Authority
KR
South Korea
Prior art keywords
event
relay data
sentence
information
group
Prior art date
Application number
KR1020150149190A
Other languages
English (en)
Other versions
KR102093790B1 (ko
Inventor
함경준
김광용
김유경
엄기문
이호재
조기성
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020150149190A priority Critical patent/KR102093790B1/ko
Publication of KR20170048736A publication Critical patent/KR20170048736A/ko
Application granted granted Critical
Publication of KR102093790B1 publication Critical patent/KR102093790B1/ko

Links

Images

Classifications

    • G06F17/30663
    • G06F17/273
    • G06F17/2755
    • G06F17/277
    • G06F17/278
    • G06F17/30666

Abstract

본 발명은 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말에 관한 것입니다.
구체적으로, 이벤트 정보 추출 방법은 국내/국외에서 발생하는 스포츠, 뉴스 등의 문자 중계 데이터를 이용하여 문장의 품사 사용 패턴, 문장 간의 유사도, 문장 간의 상관 관계를 분석하여 사용자가 원하는 이벤트 정보를 추출할 수 있는 이벤트 정보 추출 방법에 관한 것 입니다.

Description

문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말{EVNET INFORMATION EXTRACITON METHOD FOR EXTRACING THE EVENT INFORMATION FOR TEXT RELAY DATA, AND USER APPARATUS FOR PERFROMIGN THE METHOD}
아래의 설명은 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말에 관한 것으로, 구체적으로는 국내/국외에서 발생하는 스포츠 등과 같은 문자 중계 데이터로부터 사용자가 원하는 이벤트 정보에 대한 콘텐츠를 제공하기 위한 이벤트 정보 추출 방법에 관한 것이다.
최근에는 LTE와 같은 전송기술의 발달과 고성능의 단말기 보급의 확대로 스포츠영상에 대한 미디어 서비스 시장이 급속도로 확대되고 있다. 이에 따라, 미디어 서비스는 스포츠 영상의 중계에 있어, 국내 경기뿐만 아니라, 국외 경기도 중계가 가능하다. 따라서, 시청자는 국내 및 국외에서 발생하는 방대한 스포츠 영상을 접할 수 있게 되었다. 하지만, 미디어 서비스는 국내 및 국회에서 발생하는 모든 경기를 중계함에 따라 광대한 중계 자료로부터 시청자가 원하는 콘텐츠를 찾는 것이 어려운 상황이다. 이에 따라, 미디어 서비스는 획일화된 콘텐츠 제공 방식에서 사용자에게 맞춤화된 콘텐츠를 제공하기 위한 미디어 플랫폼 구축이 화두로 인식되고 있다.
구체적으로, 맞춤형 콘텐츠를 제공하기 위해서는 스포츠 영상에 대한 압축, 하이라이트 자동 추출, 이벤트별 인덱싱 등의 기술 개발이 반드시 필요하다. 다시 말해, 기존의 미디어 서비스는 중계되는 스포츠 영상으로부터 low-level feature를 추출하여 스포츠 영상에 포함된 이벤트를 탐지하는 방법을 이용하였다. 그러나, 이러한 이벤트 탐지 방법은 스포츠 영상에 포함된 이벤트에 대한 세부적인 구성을 탐지하기에 한계가 존재 하였다. 이러한 이유로, 최근에는 스포츠 영상에 대한 의미있는 정보를 포함하고 있는 문자중계 데이터를 이용한 영상 세그먼트 서비스가 연구되고 있다. 영상 세그먼트 서비스는 문자중계 데이터를 이용하여 이벤트에 해당하는 영상 구간을 찾아내고, 이를 토대로 이벤트 단위의 영상 세그먼트를 제공하는 서비스이다.
영상 세그먼트 서비스는 문자 중계 데이터를 기반으로 영상 세그먼트를 제공함에 따라 문자중계 데이터로부터 경기 이벤트 정보를 정확히 추출해 내는 것이 중요하다. 여기서, 이벤트 정보를 추출함에 있어, 이를 추출하기 위한 사람이 개입하여 수동으로 이벤트 정보를 추출하기 위한 규칙 베이스를 구축한다. 그러나, 이러한 방법은 규칙 베이스를 구축하는데 사용이 가능하나 특정 형태의 문자중계에만 활용이 가능하며, 사람이 개입됨에 따라 비용적인 측면으로 인한 범용성이 낮아, 이로 인한 신속한 미디어 서비스 제공에 한계가 있다.
따라서, 이벤트 정보 추출을 자동화 하기 위하여 비지도 기계 학습 방법을 이용한 연구도 제안이 되었지만 수동적인 방법에 비해 추출 정보의 정확도가 낮음에 따라 이를 개선하기 위한 추출 방법이 필요하다.
본 발명은 문자 중계 데이터를 이용해 이벤트 정보를 추출함에 있어, 특정 언어에 국한되지 않으면서 문자 중계 데이터의 특성에 따른 이벤트 정보를 자동으로 추출할 수 있는 이벤트 정보 추출 방법 및 사용자 단말을 제공할 수 있다.
본 발명은 문자 중계 데이터의 몇몇의 이벤트 유형이 연속적인 시간 간격으로 발생하는 경우를 고려하여, 상호 관계가 밀접한 이벤트들을 병합하여 분석을 수행할 수 있는 이벤트 정보 추출 방법 및 사용자 단말을 제공할 수 있다.
일실시예에 따른 이벤트 정보 추출 방법은 문자 중계 데이터의 문장에 대응하여 전처리를 수행하는 단계; 이벤트 유형을 표현하는 대표 키워드를 이용하여 상기 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정하는 단계; 상기 이벤트 그룹에 포함된 문자 중계 데이터의 문장에서 사용되는 품사 정보를 이용하여 이벤트 그룹별로 이벤트 결정 범위를 결정하는 단계; 상기 이벤트 그룹별 문자 중계 데이터의 문장 간 유사도에 따라 상기 이벤트 그룹을 세분화하는 단계; 상기 세분화된 이벤트 그룹에 속하는 문자 중계 데이터를 이용하여 이벤트 템플릿을 생성하는 단계; 및 상기 생성된 이벤트 템플릿을 이용하여 상기 문자 중계 데이터의 문장이 포함하고 있는 이벤트 정보를 추출하는 단계를 포함할 수 있다.
일실시예에 따른 전처리를 수행하는 단계는 상기 문장을 구성하는 텍스트에 대응하여 품사 태깅, 형태소 분석, 개체 명 인식(Named Entity Recognition) 및 불용어 처리 중 적어도 하나에 대한 전처리를 수행할 수 있다.
일실시예에 따른 이벤트 그룹을 설정하는 단계는 토픽 모델을 통해 생성된 K개의 이벤트 그룹이 나타내는 이벤트 유형을 표현하는 대표 키워드를 이용하여 이벤트 그룹을 설정할 수 있다.
일실시예에 따른 이벤트 그룹을 설정하는 단계는 상기 대표 키워드가 상기 전처리된 문자 중계 데이터에 포함되는지 여부를 고려하여 상기 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정할 수 있다.
일실시예에 따른 이벤트 결정 범위를 결정하는 단계는 상기 문자 중계 데이터의 문장에서 사용되는 품사 정보에 따른 문장의 품사 사용 패턴을 이용하여 이벤트 그룹별로 이벤트 결정 범위를 결정할 수 있다.
일실시예에 따른 이벤트 결정 범위를 결정하는 단계는 상기 문장의 품사 사용 패턴에 따른 문자 중계 데이터의 문장에 대한 문법 구조를 분석하여 문장 사용 패턴의 사용 길이에 따른 문법 구조의 유사도를 통해 이벤트 결정 범위를 결정할 수 있다.
일실시예에 따른 이벤트 그룹을 세분화하는 단계는 상기 이벤트 그룹에 포함된 문자 중계 데이터의 문장에 대한 구조 유사도와 어휘 유사도를 이용하여 이벤트 그룹을 세분화할 수 있다.
일실시예에 따른 구조 유사도는 상기 문장에서 사용되는 품사 사용 패턴을 이용하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 문법 구조에 대한 유사도를 판단할 수 있다.
일실시예에 따른 어휘 유사도는 상기 문장을 구성하는 텍스트가 나타내는 문자열을 비교하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 어휘 구조에 대한 유사도를 판단할 수 있다.
일실시예에 따른 이벤트 템플릿을 형성하는 단계는 상기 세분화된 이벤트 그룹에 속하는 문장에 포함된 공통 키워드를 기준으로 전후로 연결되는 품사 정보를 이용하여 이벤트 결정 범위를 세분화할 수 있다.
일실시예에 따른 이벤트 정보를 추출하는 단계는 상기 이벤트 템플릿을 통해 세분화된 이벤트 그룹에 포함된 문자 중계 데이터가 나타내는 이벤트 정보를 파악하여 이벤트 정보를 추출할 수 있다.
일실시예에 따른 이벤트 정보를 추출하는 단계는 상기 이벤트 유형의 발생 빈도 및 발생 시간차가 포함된 연관 정보를 이용하여 이벤트 템플릿에 따른 이벤트 정보를 추출할 수 있다.
일실시예에 따른 이벤트 정보 추출 방법 및 사용자 단말은 이벤트 그룹에 속하는 문자 중계 데이터의 문장이 나타내는 품사 사용 패턴의 문장 길이를 이용하여 보다 정확한 이벤트 유형을 분류할 수 있다.
일실시예에 따른 이벤트 정보 추출 방법 및 사용자 단말은 문자 중계 데이터의 문장간에 유사도를 바탕으로 이벤트 그룹을 세분화함으로써, 세분화된 이벤트 템플릿 및 이벤트 정보를 이용할 수 있다.
일실시예에 따른 이벤트 정보 추출 방법 및 사용자 단말은 문자 중계 데이터의 문장이 나타내는 이벤트 유형에 따른 상관 관계를 분석하여 밀접히 연관된 이벤트들을 병합함으로써, 문자 중계 데이터의 활용도를 높일 수 있다.
도 1은 일실시예에 따른 사용자가 원하는 이벤트 정보에 대한 콘텐츠를 제공하기 위한 구성도이다.
도 2는 일실시예에 따른 문자 중계 데이터를 분석하여 구조화된 이벤트 정보를 추출하는 흐름도이다.
도 3은 일실시예에 따른 문자 중계 데이터를 전처리한 후, 토픽 모델링을 수행한 결과를 도시한 도면이다.
도 4는 일실시예에 따른 문자 중계 데이터의 문장에서 사용되는 품사 사용 패턴을 계산하는 과정을 도시한 도면이다.
도 5는 일실시예에 따른 이벤트 그룹에 포함된 문자 중계 데이터의 문장에 대응하여 이벤트 템플릿을 형성하는 과정을 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 일실시예에 따른 사용자가 원하는 이벤트 정보에 대한 콘텐츠를 제공하기 위한 구성도이다.
도 1을 참고하면, 사용자 단말(101)은 문자 중계 데이터(102)에 포함된 이벤트 정보가 나열된 이벤트 정보 리스트를 사용자에게 제공할 수 있다. 이를 위해, 사용자 단말(101)은 문자 중계 데이터(102)를 이용하여, 문자 중계 데이터(102)의 문장에 포함된 이벤트 정보를 추출하기 위한 규칙을 생성할 수 있다. 여기서, 문자 중계 데이터(102)는 국내/국외에서 중계되는 방송과 관련된 데이터로 브로드캐스트 또는 웹 캐스트를 통해 중계되는 텍스트 정보를 포함할 수 있다. 일례로, 문자 중계 데이터(102)는 영상과 소리 신호를 전달하는 텔레비전을 통해 중계되는 방송 데이터, 인터넷을 통해 중계되는 인터넷 데이터 등을 포함할 수 있으며, 이 때, 중계되는 방송은 스포츠, 뉴스, 게임 등 다양한 주제로 중계될 수 있다.
그리고, 사용자 단말(101)은 다양하게 중계되는 문자 중계 데이터(102)의 문장을 구성하는 텍스트에 대한 전처리를 수행할 수 있다. 일례로, 사용자 단말(101)은 품사 태깅, 형태소 분석, 개체 명 인식(Named Entity Recognition) 및 불용어 처리 중 적어도 하나에 대한 전처리를 수행할 수 있다. 여기서, 개체 명 인식은 문장 내 동작을 수행하는 주체를 인식하기 위한 전처리 동작을 의미할 수 있다.
사용자 단말(101)은 K개의 이벤트 그룹을 생성하는 토픽 모델을 이용하여 전처리된 문자 중계 데이터(102)에 대한 이벤트 그룹을 설정할 수 있다. 여기서, 사용자 단말(101)은 토픽 모델을 통해 생성된 K개의 이벤트 그룹이 나타내는 이벤트 유형을 표현하는 대표 키워드를 이용하여 이벤트 그룹을 설정할 수 있다. 그리고, 사용자 단말(101)은 대표 키워드가 문자 중계 데이터(102)에 포함되었는지 여부에 따라 문자 중계 데이터(102)를 대표 키워드를 나타내는 이벤트 그룹에 설정할 수 있다.
사용자 단말(101)은 이벤트 그룹에 포함된 문자 중계 데이터의 문장에서 사용되는 품사 정보를 이용하여 이벤트 그룹별로 이벤트 결정 범위를 결정할 수 있다. 여기서, 이벤트 결정 범위는 문자 중계 데이터의 문장이 나타내는 이벤트에 대한 범주를 의미하는 것으로써, 문장 간에 유사도를 판단하기 위한 기준을 의미할 수 있다. 즉, 사용자 단말(101)은 이벤트 그룹에 속하는 문자 중계 데이터들 중에서 비슷한 구조와 어휘를 가지는 문장들끼리 분류하고, 분류된 문장에 따른 이벤트 정보를 보다 효과적으로 추출하기 위해 이벤트 결정 범위를 결정할 수 있다. 자세한 구성을 도 3을 통해 설명하도록 한다.
그리고, 사용자 단말(101)은 결정된 이벤트 결정 범위에 기초하여 이벤트 그룹별 문자 중계 데이터의 문장 간 유사도에 따라 상기 이벤트 그룹을 세분화할 수 있다. 다시 말해, 문자 중계 데이터는 이벤트 그룹에 따라 그룹화되었다 하더라도, 이벤트 그룹이 나타내는 이벤트 유형에 따라 다양한 정보를 포함할 수 있다.
일례로, 농구 경기와 관련된 문자 중계 데이터를 이용하는 경우, 사용자 단말(101)은 슛, 패스, 리바운드 등의 이벤트 유형에 따라 문자 중계 데이터를 이벤트 그룹으로 문자 중계 데이터를 그룹화할 수 있다. 여기서, 농구 경기는 슛을 하는 위치에 따라 2점 슛 또는 3점 슛 등으로 슛에 대한 점수가 세부화되어 있다. 따라서, 슛에 관한 이벤트 유형이라고 하더라도, 이벤트 정보는 2점 슛과 3점 슛 등으로 세분화 된 형태를 가질 수 있다.
그러므로, 사용자 단말(101)은 보다 정확한 이벤트 정보를 추출하기 위하여 대표 키워드를 통해 그룹화된 이벤트 그룹을 한 단계 더 세분화하는 동작을 수행할 수 있다.
그리고, 사용자 단말(101)은 세분화된 이벤트 그룹에 따라 이벤트 결정 범위를 세분화하여, 세분화된 이벤트 결정 범위에 따른 이벤트 템플릿을 생성할 수 있다. 사용자 단말(101)은 위에서 언급한 것과 같은 이유로 이벤트 정보를 보다 효과적으로 추출하기 위해 이벤트 결정 범위를 세분화된 이벤트 그룹에 따라 세분화할 수 있다.
이후, 사용자 단말(101)은 디스플레이를 통해 문자 중계 데이터에 기초한 이벤트 정보 리스트를 제공하고, 제공된 이벤트 정보 리스트의 이벤트 정보에 따른 콘텐츠를 사용자에게 제공할 수 있다. 여기서, 이벤트 정보 리스트는 이벤트 유형에 따라 영상 세그먼트 및 이벤트 정보가 정렬된 리스트를 의미할 수 있다. 일례로, 축구 경기에 대한 콘텐츠를 사용자에게 제공하는 경우, 이벤트 정보 리스트는 슛, 패스, 공격, 수비 등의 이벤트 정보에 대응하는 영상 세그먼트가 정렬된 리스트일 수 있다.
그리고, 사용자 단말(101)은 사용자로부터 이벤트 정보 리스트에서 선택된 이벤트 정보에 대한 영상 세그먼트를 생성하고, 생성한 영상 세그먼트에 해당하는 콘텐츠를 제공할 수 있다. 다시 말해, 사용자는 사용자 단말(101)에서 제공된 이벤트 정보 리스트에 기초하여 본인이 선호하는 이벤트 유형에 대한 이벤트 정보를 선택할 수 있다. 즉, 사용자는 경기 또는 뉴스 등 다양하게 중계되는 문자 중계 데이터를 기반으로 사용자가 원하는 이벤트 정보를 선택할 수 있다. 그리고, 사용자 단말(101)은 사용자로부터 선택된 이벤트 정보에 대응하는 콘텐츠를 선택적으로 디스플레이 함으로서, 광범위한 콘텐츠 중에서 사용자가 원하는 콘텐츠만을 제공할 수 있다.
여기서, 사용자 단말(101)은 사용자에게 콘텐츠를 제공함에 있어, 이벤트 유형의 발생 빈도 및 발생 시간차가 포함된 연관 정보를 이용함에 따라, 다양한 이벤트 정보를 포함하는 콘텐츠를 제공할 수 있다.
도 2는 일실시예에 따른 문자 중계 데이터를 분석하여 구조화된 이벤트 정보를 추출하는 흐름도이다.
도 2를 참고하면, 사용자 단말은 (i) 문자 중계 데이터를 이용하여 이벤트 정보를 추출하기 위한 이벤트 템플릿을 생성하는 단계와 (ii) 생성된 이벤트 템플릿을 이용하여 문자 중계 데이터에 대한 이벤트 정보를 분석하는 단계로 구분될 수 있다. 여기서, 이벤트 템플릿을 생성하는 단계는 도 2에 표시된 부분 중 OFFLINE 단계에 해당하며, 이벤트 정보를 분석하는 단계는 도 2에 표시된 부분 중 ONLINE 단계에 대응할 수 있다.
(i) OFFLINE 단계
OFFLINE 단계는 기존의 문자 중계 데이터에 대한 기계 학습 과정을 통한 이벤트 규칙을 형성하기 위한 단계일 수 있다.
이를 위해, OFFLINE 단계에서 사용자 단말은, 문자 중계 데이터에 대한 전처리 과정을 거친 후, 대표 키워드를 통한 이벤트 그룹을 결정할 수 있다. 구체적으로, 문자 중계 데이터는 실제 중계되는 해설자 등을 통해 생성되는 정보로써, 불완전하고, 잡음이 있고, 일관성이 부족한 상태일 수 있다. 따라서, 사용자 단말은 이러한 문자 중계 데이터에 대한 데이터 정제, 데이터 통합, 데이터 변화, 데이터 축소 등에 대한 전처리를 수행할 수 있다.
사용자 단말은 K개의 이벤트 그룹(군집)을 생성하는 토픽 모델링을 수행하여 키워드 그룹을 생성할 수 있으며, K개의 이벤트 그룹은 이벤트 그룹을 대표할 수 있는 대표 키워드를 포함할 수 있다. 이 때, 사용자 단말은 최적의 이벤트 결정 범위를 결정하기 위해 생성된 이벤트 그룹의 개수를 달리하여 토픽 모델링을 반복하여 수행할 수 있다. 그리고, 사용자 단말은 이벤트 그룹별로 이벤트 결정 범위를 결정할 수 있다.
사용자 단말은 결정된 이벤트 결정 범위에 기초하여 이벤트 그룹별 문자 중계 데이터의 문장 간 유사도에 따라 상기 이벤트 그룹을 세분화할 수 있다. 이후, 사용자 단말은 세분화된 이벤트 그룹에 따라 이벤트 결정 범위를 세분화하여, 세분화된 이벤트 결정 범위에 따른 이벤트 템플릿을 생성할 수 있다.
이 때, 사용자 단말은 이벤트 정보에 대하여 보다 정확한 추출을 위해 밀접히 관련된 두 이벤트 문장으로 연동할 수 있는 규칙을 생성할 수 있다. 일례로, 농구 경기에서 슛과 리바운드는 일정 시간을 두고 연속적으로 발생할 확률이 높은 이벤트일 수 있다. 따라서, 사용자 단말은 슛과 관련된 이벤트 정보와 리바운드와 관련된 이벤트 정보를 연동할 수 있는 이벤트 병합 규칙을 생성할 수 있다.
(ii) ONLINE 단계
ONLINE 단계는 OFFLINE 단계를 통해 기계 학습된 이벤트 템플릿과 이벤트 병합 규칙을 이용하여 실시간으로 중계되는 문자 중계 데이터에 대한 이벤트 정보를 추출하기 위한 단계일 수 있다.
구체적으로, ONLINE 단계에서 사용자 단말은 실시간으로 중계되는 문자 중계 데이터에 대한 전처리 과정을 수행할 수 있다. 여기서, 사용자 단말은 OFFLINE 단계에서 수행한 것과 같은 방법을 통해 문자 중계 데이터를 전처리할 수 있다. 일례로, 사용자 단말은 문자 중계 데이터의 문장을 구성하는 텍스트에 대해 일반적으로 사용되는 품사 태깅, 형태소 분석, Named Entity Recognition, 불용어 처리 등의 과정을 수행할 수 있다.
사용자 단말은 OFFLINE 단계에서 생성된 이벤트 템플릿을 이용하여 전처리된 문자 중계 데이터에 대한 이벤트 유형 및 문자 중계 데이터가 나타내는 이벤트 정보를 분석할 수 있다. 여기서, 사용자 단말은 보다 세분화된 이벤트 템플릿을 통해 문자 중계 데이터를 분석함에 따라, 사용자가 원하는 콘텐츠 검색에 대한 정확도를 높일 수 있다.
그리고, 사용자 단말은 OFFLINE 단계에서 생성된 이벤트 병합 규칙을 이용하여 이벤트 정보 간에 병합을 수행함에 따라 보다 연관된 콘텐츠를 사용자에게 제공할 수 있다. 이때, 사용자 단말은 상기 이벤트 유형의 발생 빈도 및 발생 시간차가 포함된 연관 정보를 이용하여 이벤트 템플릿에 따른 이벤트 정보를 추출함에 따라 보다 확장된 개념의 이벤트 정보를 사용자에게 제공할 수 있다.
도 3은 일실시예에 따른 문자 중계 데이터를 전처리한 후, 토픽 모델링을 수행한 결과를 도시한 도면이다.
도 3에 도시된 도면은 문자 중계 데이터에 대한 전처리 과정을 수행한 후, 최적의 이벤트 결정 범위를 결정하기 위한 이벤트 그룹을 설정하는 과정을 설명하기 위한 도면이다.
구체적으로, 문자 중계 데이터는 웹 캐스트를 통해 수집된 데이터일 수 있다. 이 때, 웹 캐스트에 표현된 텍스트 즉, 문자 중계 데이터의 문장을 구성하는 텍스트는 이벤트 정보에 일치하는 내용을 포함할 수 있다. 또한, 웹 캐스트에 표현된 텍스트는 이벤트의 설명이 단어의 용법과 문법(문장) 구조가 유사하다는 특징을 갖고 있다. 따라서, 사용자 단말은 문자 중계 데이터의 문장을 구성하는 텍스트를 이용하여 이벤트 클러스터 및 이벤트에 대한 대표 키워드를 정의하기 위해 사용될 수 있다.
이를 위해, 사용자 단말은 문자 중계 데이터에 대한 전처리 과정을 수행할 수 있다. 구체적으로, 사용자 단말은 텍스트에 대해 일반적으로 사용되는 품사 태깅, 형태소 분석, Named Entity Recognition, 불용어 처리 등의 과정을 수행할 수 있다.
그리고, 사용자 단말은 이벤트 유형을 표현하는 대표 키워드를 이용하여 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정할 수 있다. 사용자 단말은 토픽 모델링 알고리즘을 적용하여 이벤트 그룹을 대표하는 대표 키워드를 추출할 수 있다. 일례로, 사용자 단말은 pLSA (Probabilistic Latent Semantic Analysis) 또는 LDA (Latent Dirichlet Allocation)와 같은 이벤트 유형(타입)을 결정하는 토픽 모델 알고리즘을 이용할 수 있다. 여기서, 토픽 모델링 알고리즘은 단어 중계 데이터를 토대로 K개의 이벤트 그룹을 생성할 수 있으며, 하나의 이벤트 그룹은 하나의 이벤트 유형을 나타낼 수 있다.
이때, 사용자 단말은 이벤트 그룹에 대한 최적의 이벤트 결정 범위를 결정하기 위해 군집의 개수를 달리하여 토픽 모델링을 반복하여 수행할 수 있다. 다시 말해, 이벤트 결정 범위를 결정하는 이유는 문자 중계 데이터에 대한 클러스터링 기법을 통해 적정수의 이벤트 그룹으로 구성하여 비슷한 구조와 어휘를 가진 문자중계 문장들끼리 분류를 하여 이벤트 정보를 보다 효과적으로 추출하기 위함 일 수 있다.
따라서, 최적 이벤트 범주를 결정하기 위해서는 적정한 군집의 수를 찾아내야 하며, 이를 위해 사용자 단말은 그리고, 도 3의 (a)와 (b)에 도시된 바와 같이 9개의 이벤트 그룹과 12개의 이벤트 그룹을 생성할 수 있다. 여기서, 이벤트 그룹은 이벤트 그룹을 설정하기 위한 사용자에 의해 3개에서부터 15개까지 다양한 개수로 형성이 가능할 수 있다.
이후, 사용자 단말은 도 4의 과정을 통해 생성된 이벤트 그룹에 포함된 문장에서 사용되는 품사 사용 패턴에 따른 최적의 이벤트 결정 범위를 결정할 수 있다.
도 4는 일실시예에 따른 문자 중계 데이터의 문장에서 사용되는 품사 사용 패턴을 계산하는 과정을 도시한 도면이다.
도 4를 참고하면, 사용자 단말은 토픽 모델링을 통해 생성된 이벤트 그룹의 개수에 대한 적정한 지를 검토함으로써, 수행된 토픽 모델링에 대한 평가를 수행할 수 있다.
이를 위해, 사용자 단말은 토픽 모델링을 통해 생성된 이벤트 그룹에 대응하여 각각의 대표 키워드를 추출하고, 추출된 대표 키워드를 중심으로 문자 중계 데이터를 이벤트 그룹으로 그룹화할 수 있다. 사용자 단말은 대표 키워드가 상기 전처리된 문자 중계 데이터에 포함되는지 여부를 고려하여 상기 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정할 수 있다.
예를 들어, 토픽 모델링을 통해 생성된 특정 이벤트 그룹의 대표 키워드가 'shot'이라고 가정한다면, 사용자 단말은 대표 키워드인 'shot'을 포함하는 이벤트 정보를 포함하는 문자 중계 데이터를 추출할 수 있다. 즉, 사용자 단말은 'shot' 단어가 포함된 “Stephen Curry makes 15-foot two point shot”에 대한 문장 중계 데이터를 추출할 수 있다. 그리고, 사용자 단말은 추출된 문장 중계 데이터를 'shot' 대표 키워드를 갖는 이벤트 그룹으로 분류할 수 있다.
사용자 단말은 상기 문자 중계 데이터의 문장에서 사용되는 품사 정보에 따른 문장의 품사 사용 패턴을 추출할 수 있다. 다시 말해, 사용자 단말은 각 이벤트 그룹별로 분류된 문장에 대하여 품사정보를 이용하여 공통된 품사 사용 패턴을 찾아낼 수 있다. 사용자 단말은 문장의 품사 정보의 경우, 이미 전처리 과정에서 각 문장에 대한 품사 태깅이 되어 있으므로 이를 활용할 수 있다. 공통된 품사 사용 패턴을 찾아내기 위해서는 Longest Common Sub-sequence(LCS)와 같은 알고리즘을 사용할 수 있다.
Figure pat00001
그리고, 사용자 단말은 제1 문자 중계 데이터와 제2 문자 중계 데이터에서 사용된 품사 사용 패턴을 비교하여 “NN NN VBZ JJ CD NN”에 대한 패턴을 분석할 수 있다.
이 때, 문자 중계 데이터에서 사용되는 품사 사용 패턴은 공통된 품사 정보가 많을수록 즉 품사 사용 패턴의 길이가 수록 해당 이벤트 그룹에는 비슷한 문법 구조의 이벤트 문장들로 구성되어 있음을 유추해 낼 수 있다. 즉, 군집 대표 키워드를 포함하면서 비슷한 문법 구조를 가졌다는 것은 해당 군집 내 문장이 서로 유사한 이벤트 정보를 포함하고 있다는 의미이며 이를 이용하여 최적의 이벤트 범주를 결정하는 군집의 수를 유추 할 수 있다.
결국, 사용자 단말은 k개의 군집을 생성하는 토픽 모델을 평가하기 위해 각 이벤트 그룹 별로 공통으로 포함된 품사 사용 패턴을 추출할 수 있다. 그리고, 사용자 단말은 추출한 각 품사 사용 패턴의 평균 길이를 계산할 수 있다. 예를 들어, 토픽 모델은 2개의 이벤트 그룹을 생성할 수 있다. 그리고, 사용자 단말은 각 이벤트 그룹별 품사 사용 패턴으로 “NN NN VBZ JJ CD NN”과 “NN NN VBZ NN”을 추출할 수 있다. 여기서, 토픽 모델의 공통 품사 패턴 평균길이는 '5'가 될 수 있다.
다시 말해, 본 발명은 적정수의 이벤트 범주를 찾기 위해 k는 3부터 시작하여 15까지 토픽 모델을 생성하고 각 토픽 모델별로 평균 공통 품사 패턴 길이를 계산함으로써, 이벤트 그룹에 대한 최적의 이벤트 결정 범위를 결정할 수 있다.
결국, 본 발명은 문자 중계 데이터의 품사 구성 형태가 이벤트의 종류에 따라 차이가 난다는 점을 고려하여 토픽 모델을 평가하는데 사용함으로써 최적의 이벤트 결정 범위를 결정할 수 있다.
도 5는 일실시예에 따른 이벤트 그룹에 포함된 문자 중계 데이터의 문장에 대응하여 이벤트 템플릿을 형성하는 과정을 도시한 도면이다.
도 5를 참고하면, 사용자 단말은 대표 키워드를 이용하여 문자 중계 데이터를 분류하고, 분류된 각 문자 중계 데이터의 문장 간에 유사도를 통해 세분화할 수 있다. 그리고, 사용자 단말은 세분화된 문자 중계 데이터에 대한 이벤트 템플릿 및 이벤트 병합 규칙을 이용할 수 있다.
다시 말해, 사용자 단말은 OFFLINE 단계에서 생성된 이벤트 그룹을 세분화하고, 세분화된 이벤트 그룹에 따른 이벤트 템플릿을 구축할 수 있다. 그리고, 사용자 단말은 OFFLINE 단계에서 구축된 이벤트 템플릿을 통해 ONLINE 단계의 문자 중계 데이터에 대한 세부 정보를 추출할 수 있다. 또한, 사용자 단말은 OFFLINE 단계에서 생성된 이벤트 병합 규칙에 따라 밀접도가 높은 이벤트끼리 병합함으로써, 이벤트 단위 영상 서비스 제공시 의미있는 이벤트 정보를 사용자에게 제공할 수 있다.
사용자 단말은 학습된 토픽 모델의 각 이벤트 그룹의 대표 키워드를 이용하여 문자 중계 데이터를 분류하는 경우, 하나의 이벤트 그룹 내에 여러 종류의 이벤트 정보가 포함될 수 있다. 다시 말해, 이벤트 그룹에 포함된 문자 중계 데이터들은 이벤트 그룹의 대표 키워드를 포함하고 있기 때문에 서로 비슷한 정보를 담고 있기는 하나, 문장 구성 형태가 조금씩 다르거나 또는 다소 상이한 의미의 이벤트 정보를 포함할 수 있다.
예를 들어, ‘shot’이라는 대표 키워드에 의해 이벤트 그룹을 형상한 문자중계 문장을 살펴보면, 이벤트 그룹은 3점슛과 2점슛에 대한 이벤트를 표현하는 문장이 있는가 하면, ‘shot clock turnover’와 같은 다른 문장도 포함되어 있다. 따라서, 사용자 단말은 문장간의 유사도를 계산하여 이벤트 그룹을 보다 세분화함으로써, 이벤트 템플릿을 효과적으로 구축할 수 있다.
이를 위해, 사용자 단말은 구조 유사도와 어휘 유사도를 복합적으로 고려하는 방법을 이용함에 따라 문장 간에 유사도를 계산할 수 있다. 여기서, 구조 유사도는 문장에서 사용되는 품사 사용 패턴을 이용하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 문법 구조에 대한 유사도를 판단할 수 있다. 즉, 사용자 단말은 구조 유사도를 이용하여 이벤트 그룹 내 가장 유사한 문장 구조를 갖는 문장끼리 분류하는 동작을 수행할 수 있다.
그리고, 문장을 구성하는 텍스트가 나타내는 문자열을 비교하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 어휘 구조에 대한 유사도를 판단할 수 있다. 다시 말해, 사용자 단말은 Jaro distance 방법류나 edit distance 방법류와 같은 문자열 비교 metric을 사용하는 어휘 유사도를 이용하여 이벤트 그룹 내 가장 유사한 어휘 구조를 갖는 문장끼리 분류하는 동작을 수행할 수 있다. 결국, 사용자 단말은 구조 유사도와 어휘 유사도를 모두 고려하여 사용자 정의 임계치를 넘는 문장들을 서로 묶어줌으로써, 이벤트 그룹을 세분화할 수 있다.
그리고, 사용자 단말은 세분화된 이벤트 그룹에 포함된 문자 중계 데이터로부터 이벤트 템플릿을 생성할 수 있다.
일례로, 사용자 단말은 세부 분류 중 Cluster 1-1의 문장으로부터 “[Player] misses #-foot [NP] jump shot”의 이벤트 템플릿을 생성할 수 있다. 여기서, 이벤트 템플릿을 구축하는 과정은 우선, 세분화된 이벤트 그룹에 속하는 모든 문자 중계 데이터의 문장에 공통으로 포함되어 있는 단어를 추출할 수 있다. 그리고, 사용자 단말은 공통으로 추출된 단어를 기준으로 전후에 출현하는 단수 혹은 복수개의 단어에 대한 공통된 품사 정보를 찾음으로써, 이벤트 템플릿을 생성할 수 있다.
그리고, 사용자 단말은 상술한 과정을 통해 생성한 이벤트 템플릿을 통해 세분화된 이벤트 그룹에 속하는 문자 중계 데이터가 포함하고 있는 이벤트 정보를 파악할 수 있다. 즉, 사용자 단말은 세부 분류 중 Cluster 1-1 의 템플릿을 통해 해당 세부 분류에 속하는 문자중계 문장이 ‘jump shot’ 이벤트 정보를 포함하고 있음을 파악할 수 있다. 결국, 이벤트 템플릿은 Online 단계에서 이벤트 문장이 어떤 세부 분류에 속하는지 빠르게 파악할 수 있으며, 어떤 이벤트 정보를 포함하고 있는지 파악할 수 있다.
또한, 사용자 단말은 이벤트 정보 간에 연관성을 파악하고, 이에 따른 이벤트 병합을 수행할 수 있다. 구체적으로, 축구, 농구, 하키 등 경기 시간이 존재하는 스포츠 경기에서 제공되는 문자 중계 데이터는 대부분 이벤트 문장과 해당 이벤트가 발생한 시간 정보를 포함할 수 있다.
이를 기반으로 사용자 단말은 문자중계 수집 데이터로부터 이벤트 문장의 세부 분류 이벤트 유형과 발생 시간을 바탕으로 밀접히 관련이 있는 이벤트들을 연동시킬 수 있다.
일례로, 농구 경기에는 ‘offensive rebound’ 이벤트와 ‘shot’ 이벤트가 짧은 간격의 연속으로 나타날 수 있다. 여기서, 두 이벤트의 연관성을 계산하기 위해서는 이벤트 연속발생 빈도수와 연속발생 시간차를 이용할 수 있으며, 연관성 여부는 사용자 정의 임계치에 의해 결정할 수 있다. 이에 따라 사용자 단말은 밀접히 관련된 두 이벤트 문장으로 묶는 규칙을 구축해 놓으면, 이벤트 문자중계를 활용한 이벤트기반 영상 서비스 제공시 의미있는 영상 세그먼트를 생성할 수 있다.
본 발명과 관련된 선행논문에서는 이벤트의 분류를 학습 토픽모델을 이용하여 큰 범주로 분류하여 사용을 한다. 하지만 큰 범주로 분류하면 상당히 상이한 이벤트 정보를 포함하고 있는 이벤트 문장도 같은 범주로 지정이 되므로 정확한 이벤트 정보를 추출하기 어렵다. 본 발명은 세부 이벤트 분류까지 파악함으로써 이러한 문제를 해결하였으며, 또한 연관 이벤트간 병합 방법을 제시함으로써 문자중계 정보의 활용도를 높였다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
101: 사용자 단말
102: 문자 중계 데이터

Claims (13)

  1. 문자 중계 데이터의 문장에 대응하여 전처리를 수행하는 단계;
    이벤트 유형을 표현하는 대표 키워드를 이용하여 상기 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정하는 단계;
    상기 이벤트 그룹에 포함된 문자 중계 데이터의 문장에서 사용되는 품사 정보를 이용하여 이벤트 그룹에 대한 이벤트 결정 범위를 결정하는 단계;
    상기 이벤트 그룹별 문자 중계 데이터의 문장 간 유사도에 따라 상기 이벤트 그룹을 세분화하는 단계;
    상기 세분화된 이벤트 그룹에 속하는 문자 중계 데이터를 이용하여 이벤트 템플릿을 생성하는 단계; 및
    상기 생성된 이벤트 템플릿을 이용하여 상기 문자 중계 데이터의 문장이 포함하고 있는 이벤트 정보를 추출하는 단계
    를 포함하는 이벤트 정보 추출 방법.
  2. 제1항에 있어서,
    상기 전처리를 수행하는 단계는,
    상기 문장을 구성하는 텍스트에 대응하여 품사 태깅, 형태소 분석, 개체 명 인식(Named Entity Recognition) 및 불용어 처리 중 적어도 하나에 대한 전처리를 수행하는 이벤트 정보 추출 방법.
  3. 제1항에 있어서,
    상기 이벤트 그룹을 설정하는 단계는,
    토픽 모델을 통해 생성된 K개의 이벤트 그룹이 나타내는 이벤트 유형을 표현하는 대표 키워드를 이용하여 이벤트 그룹을 설정하는 이벤트 정보 추출 방법.
  4. 제1항에 있어서,
    상기 이벤트 그룹을 설정하는 단계는,
    상기 대표 키워드가 상기 전처리된 문자 중계 데이터에 포함되는지 여부를 고려하여 상기 전처리된 문자 중계 데이터에 대한 이벤트 그룹을 설정하는 이벤트 정보 추출 방법.
  5. 제1항에 있어서,
    상기 이벤트 결정 범위를 결정하는 단계는,
    상기 문자 중계 데이터의 문장에서 사용되는 품사 정보에 따른 문장의 품사 사용 패턴을 이용하여 이벤트 그룹별로 이벤트 결정 범위를 결정하는 이벤트 정보 추출 방법.
  6. 제5항에 있어서,
    상기 이벤트 결정 범위를 결정하는 단계는,
    상기 문장의 품사 사용 패턴에 따른 문자 중계 데이터의 문장에 대한 문법 구조를 분석하여 문장 사용 패턴의 사용 길이에 따른 문법 구조의 유사도를 통해 이벤트 결정 범위를 결정하는 이벤트 정보 추출 방법.
  7. 제1항에 있어서,
    상기 이벤트 그룹을 세분화하는 단계는,
    상기 이벤트 그룹에 포함된 문자 중계 데이터의 문장에 대한 구조 유사도와 어휘 유사도를 이용하여 이벤트 그룹을 세분화하는 이벤트 정보 추출 방법.
  8. 제7항에 있어서,
    상기 구조 유사도는,
    상기 문장에서 사용되는 품사 사용 패턴을 이용하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 문법 구조에 대한 유사도를 판단하는 이벤트 정보 추출 방법.
  9. 제7항에 있어서,
    상기 어휘 유사도는,
    상기 문장을 구성하는 텍스트가 나타내는 문자열을 비교하여 이벤트 그룹별 문장 중계 데이터의 문장에서 사용되는 어휘 구조에 대한 유사도를 판단하는 이벤트 정보 추출 방법.
  10. 제1항에 있어서,
    상기 이벤트 템플릿을 형성하는 단계는,
    상기 세분화된 이벤트 그룹에 속하는 문장에 포함된 공통 키워드를 기준으로 전후로 연결되는 품사 정보를 이용하여 이벤트 결정 범위를 세분화하는 이벤트 정보 추출 방법.
  11. 제1항에 있어서,
    상기 이벤트 정보를 추출하는 단계는,
    상기 이벤트 템플릿을 통해 세분화된 이벤트 그룹에 포함된 문자 중계 데이터가 나타내는 이벤트 정보를 파악하여 이벤트 정보를 추출하는 이벤트 정보 추출 방법.
  12. 제11항에 있어서,
    상기 이벤트 정보를 추출하는 단계는,
    상기 문자 중계 데이터의 문장이 나타내는 이벤트 유형에 따른 상관 관계를 분석하여 밀접히 연관된 이벤트들에 대한 이벤트 병합 규칙을 이용하여 이벤트 정보를 추출하는 이벤트 정보 추출 방법.
  13. 제11항에 있어서,
    상기 이벤트 병합 규칙은,
    상기 이벤트 유형의 발생 빈도 및 발생 시간차가 포함된 연관 정보를 이용하여 이벤트 템플릿에 따른 이벤트 정보를 추출하는 이벤트 정보 추출 방법.
KR1020150149190A 2015-10-27 2015-10-27 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 KR102093790B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150149190A KR102093790B1 (ko) 2015-10-27 2015-10-27 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150149190A KR102093790B1 (ko) 2015-10-27 2015-10-27 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말

Publications (2)

Publication Number Publication Date
KR20170048736A true KR20170048736A (ko) 2017-05-10
KR102093790B1 KR102093790B1 (ko) 2020-03-26

Family

ID=58743654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150149190A KR102093790B1 (ko) 2015-10-27 2015-10-27 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말

Country Status (1)

Country Link
KR (1) KR102093790B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190016758A (ko) * 2017-08-09 2019-02-19 정지훈 스포츠 영상 제공 장치
KR20210048713A (ko) * 2019-10-24 2021-05-04 주식회사 한글과컴퓨터 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법
KR20210072714A (ko) * 2019-12-09 2021-06-17 한국과학기술원 크라우드-소싱 환경에서 이벤트를 분류하는 장치 및 방법
KR20220081009A (ko) * 2020-12-08 2022-06-15 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030068856A (ko) * 2002-02-18 2003-08-25 한국전자통신연구원 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030068856A (ko) * 2002-02-18 2003-08-25 한국전자통신연구원 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190016758A (ko) * 2017-08-09 2019-02-19 정지훈 스포츠 영상 제공 장치
KR20210048713A (ko) * 2019-10-24 2021-05-04 주식회사 한글과컴퓨터 번역 엔진에 미포함된 신규 개체명에 대한 번역 기능을 제공하기 위한 번역 처리 장치 및 그 동작 방법
KR20210072714A (ko) * 2019-12-09 2021-06-17 한국과학기술원 크라우드-소싱 환경에서 이벤트를 분류하는 장치 및 방법
KR20220081009A (ko) * 2020-12-08 2022-06-15 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램

Also Published As

Publication number Publication date
KR102093790B1 (ko) 2020-03-26

Similar Documents

Publication Publication Date Title
CN107515877B (zh) 敏感主题词集的生成方法和装置
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
CN113766314B (zh) 视频切分方法、装置、设备、系统及存储介质
CN111797820B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
KR102093790B1 (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN103559880A (zh) 语音输入系统和方法
CN112883734B (zh) 区块链安全事件舆情监测方法及系统
CN109325124A (zh) 一种情感分类方法、装置、服务器和存储介质
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
KR102206781B1 (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN112464036B (zh) 一种违规数据的审核方法及装置
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN114912026B (zh) 一种网络舆情监测分析处理方法、设备及计算机存储介质
CN112804580B (zh) 一种视频打点的方法和装置
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
CN113961677A (zh) 话题文本处理方法、装置、电子设备及可读存储介质
KR20150018712A (ko) 사용자 가치와 사용자 프로파일을 고려한 콘텐츠 평가 방법
CN113688231A (zh) 一种答案文本的摘要提取方法及装置、电子设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right