KR101510647B1 - 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 - Google Patents
이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 Download PDFInfo
- Publication number
- KR101510647B1 KR101510647B1 KR20110102568A KR20110102568A KR101510647B1 KR 101510647 B1 KR101510647 B1 KR 101510647B1 KR 20110102568 A KR20110102568 A KR 20110102568A KR 20110102568 A KR20110102568 A KR 20110102568A KR 101510647 B1 KR101510647 B1 KR 101510647B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- web
- issue
- template
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000605 extraction Methods 0.000 title claims description 25
- 230000014509 gene expression Effects 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 76
- 230000010354 integration Effects 0.000 claims description 24
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims 1
- 238000012986 modification Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 230000008451 emotion Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 239000009261 D 400 Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005245 sintering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
종래에는 시간 축에서 각 이슈에 대한 세부 속성의 변화를 관찰할 수 없을 뿐만 아니라, 의견 정보만을 추출하기 때문에 이슈에 대한 사실(fact) 정보를 관찰할 수 없다는 단점이 있다. 또한, 각각의 구문/어휘 수준의 관계 표현을 일반화하여 의미관계로 표현하고 템플릿(template)으로 통합하는 기술은 포함하지 않고 있다. 이에 본 발명의 실시예에서는, 웹(web) 및 소셜미디어(social media)의 이슈에 대하여 네티즌의 의견(opinion) 및 사실(fact)을 포함하는 이슈(issue)의 주요 속성별 속성값을 추출하여 시간축에서 동적으로 변하는 이슈의 세부 속성정보를 기반으로 웹 동향에 대한 깊이 있는 인사이트(insight)를 사용자에게 제공할 수 있는 이슈 템플릿 추출 기반의 웹 동향 분석 기술을 제안하고자 한다.
Description
본 발명은 웹(web) 및 소셜미디어(social media) 정보 추출 기술에 관한 것으로, 특히 웹 및 소셜미디어에서 탐지한 주요 이슈(issue)에 대한 사실(fact) 및 네티즌의 의견(opinion)을 모니터링(monitoring)하는데 적합한 이슈 템플릿(template) 추출 기반의 웹 동향 분석 방법 및 장치에 관한 것이다.
종래의 웹 및 소셜미디어 정보 추출 기술로는, 문서에서 나타나는 키워드, 즉 이슈(issue)의 빈도수 변화를 기반으로 웹 상의 이슈를 모니터링하는 기법(1)과, 이슈에 대한 의견(opinion) 정보를 웹에서 추출하여 제시하는 기법(2)과, 웹 상에서 개체와 개체 사이의 구문/어휘 수준의 삼진관계(triple)를 추출하는 기법(3) 등이 있다.
기법(1)은 시간 축에서 각 이슈에 대한 세부 속성의 변화를 관찰할 수 없다는 단점이 있으며, 기법(2)는 의견 정보만을 추출하기 때문에 이슈에 대한 사실(fact) 정보를 관찰할 수 없다는 단점이 있다. 또한, 기법(3)은 각각의 구문/어휘 수준의 관계 표현을 일반화하여 의미관계로 표현하고 템플릿(template)으로 통합하는 기술은 포함하지 않고 있다.
이에 본 발명의 실시예에서는, 웹(web) 및 소셜미디어(social media)의 이슈에 대하여 네티즌의 의견(opinion) 및 사실(fact)을 포함하는 이슈(issue)의 주요 속성별 속성값을 추출하여 시간축에서 동적으로 변하는 이슈의 세부 속성정보를 기반으로 웹 동향에 대한 깊이 있는 인사이트(insight)를 사용자에게 제공할 수 있는 이슈 템플릿 추출 기반의 웹 동향 분석 기술을 제안하고자 한다.
본 발명의 실시예에 따른 이슈 템플릿 추출 기반의 웹 동향 분석 장치는, 웹(web)을 통해 제공되는 웹문서를 수집하는 웹문서 수집부와, 상기 웹문서 수집부를 통해 수집되는 웹문서를 대상으로 불용문서를 필터링하고, 필터링 결과문서를 저장하는 웹문서 필터링부와, 상기 웹문서 필터링부를 통해 저장되는 상기 필터링 결과문서에서 신규 이슈를 탐지하는 이슈 탐지부와, 상기 이슈 탐지부를 통해 탐지되는 신규 이슈에 대하여 이슈 템플릿의 세부 속성값을 추출하는 이슈 템플릿 추출부와, 상기 이슈 템플릿 추출부를 통해 추출되는 이슈 템플릿을 동일 엔터티(entity) 및 동일 이벤트(event)를 기준으로 통합하는 이슈 템플릿 통합부와, 상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿을 이용하여 시간축 상의 변화정보를 외부로 표시하는 이슈 모니터링부를 포함할 수 있다.
여기서, 상기 웹 동향 분석 장치는, 상기 신규 이슈에 대한 템플릿 정보를 추출하기 위한 개체 및 사건 템플릿을 정의하는 이슈 지식베이스 수정부와, 상기 이슈 지식베이스 수정부를 통해 정의되는 개체 및 사건 템플릿을 기반으로 한 이슈 템플릿이 저장되는 이슈 지식베이스를 더 포함할 수 있다.
또한, 상기 웹 동향 분석 장치는, 상기 웹문서 수집부를 통해 수집되는 웹문서가 저장되는 웹문서 데이터베이스와, 상기 웹문서 필터링부를 통해 필터링된 결과문서가 저장되는 웹문서 데이터베이스와, 상기 이슈 탐지부를 통해 탐지되는 신규 이슈가 저장되는 이슈 데이터베이스와, 상기 이슈 템플릿 추출부를 통해 추출되는 상기 이슈 템플릿의 세부 속성값이 저장되는 이슈 템플릿 데이터베이스와, 상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿이 저장되는 이슈 템플릿 데이터베이스를 더 포함할 수 있다.
또한, 상기 웹문서는, 신문 또는 블로그 또는 소셜미디어정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 불용문서는, 스팸문서 또는 허위평판 문서 또는 편향문서 중 적어도 하나를 포함할 수 있다.
또한, 상기 시간축 상의 변화정보는, 이슈의 빈도수 또는 연관 이슈 또는 속성값 중 적어도 하나를 포함할 수 있다.
또한, 상기 웹문서 필터링부는, 광고를 포함한 스팸 문서와 웹 검색 시스템에서 랭킹을 올리기 위하여 특정 키워드를 의도적으로 반복적으로 기술한 스팸 문서를 필터링하는 스팸문서 필터링부와, 특정 이슈와 관련된 평판에 영향을 주기 위하여 반복적으로 해당 이슈에 대해 의도적으로 게시한 허위평판을 필터링하는 허위평판 필터링부와, 특정 이슈에 대하여 한 방향으로 편향된 의견의 문서를 필터링하는 편향문서 필터링부를 포함할 수 있다.
또한, 상기 스팸문서 필터링부와, 상기 허위평판 필터링부와, 상기 편향문서 필터링부를 통해, 입력된 웹 문서가 정제된 웹 문서로 필터링될 수 있다.
또한, 상기 이슈 지식베이스는, 이슈를 개체 클래스와 사건 클래스로 구분하여 계층적으로 정의할 수 있다.
또한, 상기 개체 클래스와 사건 클래스에는, 세부 속성 및 속성값의 유형 및 속성값의 제약조건 중 적어도 하나가 정의될 수 있다.
또한, 상기 이슈 템플릿 통합부는, 동일한 값이 다양한 형태로 표현되는 경우, 정규화된 표현으로 변환하는 속성값 정규화부와, 다수 개의 개체 템플릿 및 사건 템플릿에서 동일개체를 검색하고 하나의 노드로 통합하는 동일개체 통합부와, 다수 개의 사건 템플릿에서 동일 사건을 발견하고 하나의 사건으로 통합하는 동일사건 통합부를 포함할 수 있다.
본 발명의 실시예에 따른 이슈 템플릿 추출 기반의 웹 동향 분석 방법은, 웹을 통해 제공되는 웹문서를 웹문서 수집부를 통해 수집하는 과정과, 상기 수집되는 웹문서를 대상으로 웹문서 필터링부에서 불용문서를 필터링하는 과정과, 상기 웹문서 필터링부를 통해 필터링되는 필터링 결과문서에서 이슈 탐지부가 신규 이슈를 탐지하는 과정과, 탐지되는 상기 신규 이슈에 대하여 이슈 템플릿 추출부를 통해 이슈 템플릿의 세부 속성값을 추출하는 과정과, 상기 이슈 템플릿 추출부를 통해 추출되는 이슈 템플릿을 이슈 템플릿 통합부를 통해 동일 엔터티 및 동일 이벤트를 기준으로 통합하는 과정과, 상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿을 이용하여 이슈 모니터링부를 통해 시간축 상의 변화정보를 외부로 표시하는 과정을 포함할 수 있다.
여기서, 상기 웹 동향 분석 방법은, 상기 신규 이슈에 대한 템플릿 정보를 추출하기 위한 개체 및 사건 템플릿을 이슈 지식베이스 수정부를 통해 정의하는 과정과, 상기 이슈 지식베이스 수정부를 통해 정의되는 개체 및 사건 템플릿을 기반으로 한 이슈 템플릿을 저장하는 과정을 더 포함할 수 있다.
또한, 상기 웹문서는, 신문 또는 블로그 또는 소셜미디어정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 불용문서는, 스팸문서 또는 허위평판 문서 또는 편향문서 중 적어도 하나를 포함할 수 있다.
또한, 상기 시간축 상의 변화정보는, 이슈의 빈도수 또는 연관 이슈 또는 속성값 중 적어도 하나를 포함할 수 있다.
또한, 상기 불용문서를 필터링하는 과정은, 광고를 포함한 스팸 문서와 웹 검색 시스템에서 랭킹을 올리기 위하여 특정 키워드를 의도적으로 반복적으로 기술한 스팸문서를 필터링하는 과정과, 특정 이슈와 관련된 평판에 영향을 주기 위하여 반복적으로 해당 이슈에 대해 의도적으로 게시한 허위평판을 필터링하는 과정과, 특정 이슈에 대하여 한 방향으로 편향된 의견의 문서를 필터링하는 과정을 포함할 수 있다.
또한, 상기 불용문서를 필터링하는 과정은, 상기 스팸문서를 필터링하는 과정과, 상기 허위평판을 필터링하는 과정과, 상기 편향된 의견의 문서를 필터링하는 과정을 통해, 입력된 웹 문서를 정제된 웹 문서로 필터링하는 과정을 포함할 수 있다.
또한, 상기 이슈 템플릿 추출 기반의 웹 동향 분석 방법은, 상기 신규 이슈를 개체 클래스와 사건 클래스로 구분하여 계층적으로 정의하는 과정을 더 포함할 수 있다.
또한, 상기 통합하는 과정은, 동일한 값이 다양한 형태로 표현되는 경우, 정규화된 표현으로 변환하는 과정과, 다수 개의 개체 템플릿 및 사건 템플릿에서 동일개체를 검색하고 하나의 노드로 통합하는 과정과, 다수 개의 사건 템플릿에서 동일 사건을 발견하고 하나의 사건으로 통합하는 과정을 포함할 수 있다.
본 발명에 의하면, 종래의 이슈 빈도수 기반으로 모니터링하는 방법에 비해, 이슈의 속성별로 속성값의 변화를 시간축에서 추가적으로 관찰할 수 있으며, 여러 개의 템플릿을 묶어서 만들어진 큰 그래프 구조를 탐색하여 텍스트에서 명시적으로 표현되지 않은 연관 이슈를 탐지할 수 있다. 또한, 본 발명은 사실(fact)에 기반한 의미 관계를 추출하고, 수집한 웹 문서를 대상으로 스팸 필터링, 허위 평판 필터링, 편향된 문서 필터링 등을 수행함으로써 정보 추출의 신뢰도를 높일 수 있다.
도 1은 본 발명의 실시예에 따른 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치를 설명하기 위한 구성 블록도,
도 2는 도 1의 웹문서 필터링부(A200)의 상세 구성 블록도,
도 3은 도 1의 이슈 지식베이스(D400)의 개념도,
도 4는 이슈 지식베이스(D400)에서 정의된 임의의 개체 클래스의 세부 속성을 예시적으로 나타낸 도면,
도 5는 도 4의 개체 클래스의 세부 속성을 참조하여 추출한 속성값을 예시적으로 나타낸 도면,
도 6은 이슈 지식베이스(D400)에서 정의된 임의의 사건 클래스의 세부 속성을 예시적으로 나타낸 도면,
도 7은 도 5의 속성값에서 추출되는 사건 템플릿을 예시적으로 나타낸 도면,
도 8은 도 1의 이슈 템플릿 통합부(A500)의 상세 구성 블록도,
도 9는 도 5 및 도 7에서 동일 개체 통합 결과를 예시적으로 나타낸 도면,
도 10은 도 7의 사건 템플릿을 통합한 결과를 예시적으로 나타낸 도면.
도 2는 도 1의 웹문서 필터링부(A200)의 상세 구성 블록도,
도 3은 도 1의 이슈 지식베이스(D400)의 개념도,
도 4는 이슈 지식베이스(D400)에서 정의된 임의의 개체 클래스의 세부 속성을 예시적으로 나타낸 도면,
도 5는 도 4의 개체 클래스의 세부 속성을 참조하여 추출한 속성값을 예시적으로 나타낸 도면,
도 6은 이슈 지식베이스(D400)에서 정의된 임의의 사건 클래스의 세부 속성을 예시적으로 나타낸 도면,
도 7은 도 5의 속성값에서 추출되는 사건 템플릿을 예시적으로 나타낸 도면,
도 8은 도 1의 이슈 템플릿 통합부(A500)의 상세 구성 블록도,
도 9는 도 5 및 도 7에서 동일 개체 통합 결과를 예시적으로 나타낸 도면,
도 10은 도 7의 사건 템플릿을 통합한 결과를 예시적으로 나타낸 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치를 설명하기 위한 구성 블록도로서, 웹문서 수집부(A100), 웹문서 DB(D100), 웹문서 필터링부(A200), 정제 웹문서 DB(D200), 이슈 탐지부(A300), 이슈 DB(D300), 이슈 지식베이스 수정부(A350), 이슈 템플릿 추출부(A400), 이슈 지식베이스(D400), 이슈 템플릿 DB(D500), 이슈 템플릿 통합부(A500), 통합 이슈 템플릿 DB(D600), 이슈 모니터링부(A600) 등을 포함할 수 있다.
도 1에 도시한 바와 같이, 웹문서 수집부는(A100)는 웹을 통해 제공되는 다양한 웹문서들, 예를 들어 신문, 블로그, 소셜미디어 정보 등의 웹문서를 수집하여 웹문서 DB(D100)에 저장하는 역할을 할 수 있다.
웹문서 필터링부(A200)는 웹문서 DB(D100)에 저장된 문서를 대상으로 불용문서, 예컨대 정보성이 없는 문서(예를 들면, 스팸문서), 허위평판 문서, 편향된 내용의 문서 등을 필터링하고, 필터링된 결과 문서를 정제 웹문서 DB(D200)에 저장할 수 있다.
이슈 탐지부(A300)는 정제 웹문서 DB(D200)에 저장된 필터링 결과 문서에서 새로운 이슈를 탐지하여 이슈 DB(D300)에 저장할 수 있다.
이슈 지식베이스 수정부(A350)는 신규로 탐지된 이슈에 대한 템플릿 정보를 추출하기 위한 개체 및 사건 템플릿을 정의하여 이슈 지식베이스(D400)에 저장할 수 있다.
이슈 템플릿 추출부(A400)는 이슈 DB(D300)에 저장된 이슈에 대하여 이슈 지식베이스(D400)에서 정의된 개체 및 사건 템플릿을 기반으로 한 이슈 템플릿의 세부 속성값을 문서 자동 분석 과정을 통해 정제 웹문서 DB(D200)로부터 추출하여 이슈 템플릿 DB(D500)에 저장할 수 있다. 예를 들어, 후술하는 도 5의 개체 클래스(SmartPhone)의 인스턴스(갤럭시S2)에 대해 속성값(1.2기가헤르츠(GHz) 듀얼코어)을 추출할 수 있다.
이슈 템플릿 통합부(A500)는 이슈 템플릿 DB(D500)에 저장된 이슈 템플릿을 동일 엔티티 및 동일 이벤트를 기준으로 통합하여 통합 이슈 템플릿 DB(D600)에 저장할 수 있다.
이슈 모니터링부(A600)는 통합 이슈 템플릿 DB(D600)에 저장된 이슈 템플릿을 이용하여 시간축 상의 변화정보, 예를 들어 이슈의 빈도수, 연관 이슈, 속성값 등의 변화정보를 외부로 표시할 수 있다.
도 2는 도 1의 웹문서 필터링부(A200)의 상세 구성 블록도로서, 스팸문서 필터링부(A210), 허위평판 필터링부(A220), 편향문서 필터링부(A230) 등을 포함할 수 있다.
도 2에 도시한 바와 같이, 스팸문서 필터링부(A210)는 광고를 포함한 스팸 문서와 웹 검색 시스템에서 랭킹을 올리기 위하여 특정 키워드를 의도적으로 반복적으로 기술한 스팸 문서를 필터링하는 역할을 할 수 있다.
허위평판 필터링부(A220)는 특정 이슈와 관련된 평판에 영향을 주기 위하여 반복적으로 해당 이슈에 대해 의도적으로 게시한 허위 평판을 필터링하는 역할을 할 수 있다.
편향문서 필터링부(A230)는 특정 이슈에 대하여 사회적으로 한 방향으로 편향된 의견의 문서를 필터링하는 역할을 할 수 있다.
이와 같은 스팸문서 필터링부(A210), 허위평판 필터링부(A220), 편향문서 필터링부(A230) 등을 통해, 입력된 웹 문서가 정제된 웹 문서로 필터링될 수 있다.
도 3은 도 1의 이슈 지식베이스(D400)의 개념도이다.
도 3을 참조하면, 이슈 지식베이스(D400)는 이슈를 개체(Entity) 클래스와 사건(Event) 클래스로 구분하여 계층적으로 정의할 수 있다.
개체 클래스에는 실제 문서에서 발견되는 인스턴스들이 맵핑되어 있다. 모든 사건 클래스와 개체 클래스에는 세부 속성 및 속성값의 유형, 속성값의 제약조건 등이 정의될 수 있다.
도 4는 이슈 지식베이스(D400)에서 정의된 임의의 개체 클래스의 세부 속성을 예시적으로 나타낸 도면이다.
도 4를 참조하면, 이슈 지식베이스(D400)에서 정의된 개체 클래스 중 임의의 클래스, 예를 들어 SmartPhone 클래스의 세부 속성 정의의 예를 보여준다.
속성값 유형은 속성값의 데이터 타입을 나타낼 수 있다.
속성값 제약은 해당 속성에 대한 속성값의 단일값 또는 다중값 여부를 정의할 수 있다. 예를 들어, 특정 SmartPhone은 하나의 CPU만 가지기 때문에 단일값 제약을 가질 수 있다.
감성( Emotion ) 속성은 해당 개체에 대한 웹에서의 감성 정보를 추출하여 수치로 정량화한 것이다.
모든 개체 클래스는 날짜( Date )를 속성으로 가질 수 있다. 날짜 정보를 기준으로 동일 엔티티에 대한 속성값의 변화를 관찰할 수 있다.
이슈 템플릿 추출부(A400)는 이슈 지식베이스(D400)에 등록된 모든 개체 인스턴스의 세부 속성값을 문서 자동 분석 과정을 통하여 추출할 수 있다.
도 5는 도 4의 개체 클래스의 세부 속성을 참조하여 추출한 속성값을 예시적으로 나타낸 도면이다.
도 5를 참조하면, SmartPhone 클래스의 하나의 인스턴스인 갤럭시 S2에 대하여 기술한 문서에서 도 4의 SmartPhone 클래스의 속성 정의를 참조하여 추출한 속성값의 예를 보여주고 있다.
주어진 문서에서 개체의 속성별로 속성값을 추출하여 템플릿 형식으로 관리할 수 있다. 각각의 속성 값을 추출한 문서의 출처와 날짜 정보를 metainfo로 기록할 수 있다.
도 6은 이슈 지식베이스(D400)에서 정의된 임의의 사건 클래스의 세부 속성을 예시적으로 나타낸 도면이다.
도 6을 참조하면, 이슈 지식베이스(D400)에서 정의된 사건 클래스 중에서 임의의 클래스, 예를 들어 ProductRelease 클래스의 세부 속성 정의의 예를 보여주고 있다.
속성값 유형에서 ENTITY : COMPANY , ENTITY : PRODUCT , ENTITY : NATION 은 해당 유형의 개체 인스턴스를 속성값으로 가질 수 있다는 제약 조건을 나타낸다.
모든 사건 클래스는 날짜( Date ), 장소( Location )를 속성으로 가질 수 있다.
감성( Emotion ) 속성은 해당 사건에 대한 웹에서의 감성 정보를 추출하여 수치로 정량화한 것이다.
주요 속성이 Y인 속성은 해당 사건을 다른 동일 유형의 다른 사건과 구분하기 위한 속성을 나타낼 수 있다.
사건 ProductRelease는 Company와 Product를 주요 속성으로 가질 수 있다. 속성값 제약은 해당 속성에 대한 속성값의 단일값 또는 다중값 여부를 정의할 수 있다. 예를 들어, ProductRelease 사건에서 Company 속성의 속성값은 1개만 올 수 있지만, Location 속성의 속성값은 여러 개 올 수 있다.
도 7은 도 5의 속성값에서 추출되는 사건 템플릿을 예시적으로 나타낸 도면이다.
도 7을 참조하면, 예를 들어 갤럭시 S2의 출시 정보와 판매량 정보가 표현된 문서에서 갤럭시 S2에 대한 ProductRelease 사건과 ProductSales 사건 정보를 추출하여 템플릿 형식으로 표현할 수 있다.
각각의 사건을 추출한 문서의 출처와 날짜 정보를 metainfo로 기록할 수 있다. 상대값으로 표현된 43일전은 날짜 정규화 과정을 거쳐 추출한 문서의 날짜를 기준으로 2011.4.28로 변환될 수 있다.
도 8은 도 1의 이슈 템플릿 통합부(A500)의 상세 구성 블록도로서, 속석값 정규화부(A510), 동일개체 통합부(A520), 동일사건 통합부(A530) 등을 포함할 수 있다.
도 8에 도시한 바와 같이, 템플릿 통합부(A500)는 템플릿 추출부(A400)에서 추출한 템플릿들을 속성값 정규화부(A510), 동일 개체 통합부(A520), 동일 사건 통합부(A530) 등을 거쳐 통합된 템플릿을 생성할 수 있다.
먼저, 속성값 정규화부(A510)는 동일한 값이 다양한 형태로 표현되는 경우, 예를 들어 날짜, 숫자, 위치 등으로 표현된 경우, 정규화된 표현으로 변환하는 역할을 할 수 있다.
동일개체 통합부(A520)는 다수개의 개체 템플릿, 사건 템플릿에서 동일 개체를 발견하고 하나의 노드로 통합할 수 있다.
동일사건 통합부(A530)는 다수 개의 사건 템플릿에서 동일 사건을 발견하고 하나의 사건으로 통합할 수 있다. 예컨대, 사건 유형이 동일하고, 주요 속성의 속성값이 같은 경우 동일 사건으로 판단할 수 있다. 또한, 동일 개체 통합과 동일 사건 통합에서 템플릿의 속성 값이 충돌하는 경우에는 속성 별 우선 순위 기준을 이용하여 결정될 수 있다. 동일 개체 통합과 동일 사건 통합은 시스템에서 미리 정한 시간대에 추출한 개체와 사건들을 대상으로 일정주기마다 수행될 수 있다.
도 9는 도 5 및 도 7에서 동일 개체 통합 결과를 예시적으로 나타낸 도면이다.
도 9를 참조하면, 도 5의 갤럭시 S2라는 템플릿 정보와, 도 7의 갤럭시 S2 출시, 갤럭시S2 판매 등의 사건 템플릿에 대한 동일 개체 통합을 수행한 결과를 예시한 것이다.
세 개의 템플릿에서 갤럭시 S2가 동일 개체이기 때문에 갤럭시 S2를 하나의 노드로 통합하여 표현할 수 있다.
도 10은 도 7의 사건 템플릿을 통합한 결과를 예시적으로 나타낸 도면이다.
도 10을 참조하면, 두 개의 ProductRelease 사건에서 중요 속성인 product, company 등의 속성값이 각각 갤럭시 S2, 삼성전자 등과 같이 동일하기 때문에 동일한 사건으로 판단할 수 있다.
동일 속성에 동일한 속성값은 하나의 노드로 표현할 수 있다. 동일 속성에 서로 다른 속성값은 속성별 기준을 이용하여 한 개 또는 여러 개로 표현할 수 있다.
도 6의 ProductRelease 사건에서 속성 Date는 도 6의 ProductRelease 클래스 세부 속성정의에서 단일값으로 정의되었기 때문에 하나의 속성값으로 표현해야 한다. 이 경우, 속성별 기준을 적용하여 하나의 속성값을 선택할 수 있다. 본 발명의 실시예에서는 더 자세한 속성값 2011.4.29를 선택할 수 있다.
이와 같은 사건 템플릿 통합 후 메타데이타는 중복 관리될 수 있다.
이상 설명한 바와 같은 본 발명의 실시예에 의하면, 종래의 이슈 빈도수 기반으로 모니터링하는 방법에 비해, 이슈의 속성별로 속성값의 변화를 시간축에서 추가적으로 관찰할 수 있으며, 여러 개의 템플릿을 묶어서 만들어진 큰 그래프 구조를 탐색하여 텍스트에서 명시적으로 표현되지 않은 연관 이슈를 탐지할 수 있도록 구현한 것이다. 또한, 본 발명은 사실(fact)에 기반한 의미 관계를 추출하고, 수집한 웹 문서를 대상으로 스팸 필터링, 허위 평판 필터링, 편향된 문서 필터링 등을 수행함으로써 정보 추출의 신뢰도를 높일 수 있도록 구현한 것이다.
A100: 웹문서 수집부
D100: 웹문서 DB
A200: 웹문서 필터링부
D200: 정제 웹문서 DB
A300: 이슈 탐지부
D300: 이슈 DB
A350: 이슈 지식베이스 수정부
A400: 이슈 템플릿 추출부
D400: 이슈 지식베이스
D500: 이슈 템플릿 DB
A500: 이슈 템플릿 통합부
D600: 통합 이슈 템플릿 DB
A600: 이슈 모니터링부
D100: 웹문서 DB
A200: 웹문서 필터링부
D200: 정제 웹문서 DB
A300: 이슈 탐지부
D300: 이슈 DB
A350: 이슈 지식베이스 수정부
A400: 이슈 템플릿 추출부
D400: 이슈 지식베이스
D500: 이슈 템플릿 DB
A500: 이슈 템플릿 통합부
D600: 통합 이슈 템플릿 DB
A600: 이슈 모니터링부
Claims (20)
- 웹(web)을 통해 제공되는 웹문서를 수집하는 웹문서 수집부와,
상기 웹문서 수집부를 통해 수집되는 웹문서를 대상으로 불용문서를 필터링하고, 필터링 결과문서를 저장하는 웹문서 필터링부와,
상기 웹문서 필터링부를 통해 저장되는 상기 필터링 결과문서에서 신규 이슈를 탐지하는 이슈 탐지부와,
상기 이슈 탐지부를 통해 탐지되는 신규 이슈에 대하여 이슈 템플릿의 세부 속성값을 추출하는 이슈 템플릿 추출부와,
상기 이슈 템플릿 추출부를 통해 추출되는 이슈 템플릿을 동일 엔터티(entity) 및 동일 이벤트(event)를 기준으로 통합하는 이슈 템플릿 통합부와,
상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿을 이용하여 시간축 상의 변화정보를 외부로 표시하는 이슈 모니터링부를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 웹 동향 분석 장치는,
상기 신규 이슈에 대한 템플릿 정보를 추출하기 위한 개체 및 사건 템플릿을 정의하는 이슈 지식베이스 수정부와,
상기 이슈 지식베이스 수정부를 통해 정의되는 개체 및 사건 템플릿을 기반으로 한 이슈 템플릿이 저장되는 이슈 지식베이스를 더 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 웹 동향 분석 장치는,
상기 웹문서 수집부를 통해 수집되는 웹문서가 저장되는 웹문서 데이터베이스와,
상기 웹문서 필터링부를 통해 필터링된 결과문서가 저장되는 정제 웹문서 데이터베이스와,
상기 이슈 탐지부를 통해 탐지되는 신규 이슈가 저장되는 이슈 데이터베이스와,
상기 이슈 템플릿 추출부를 통해 추출되는 상기 이슈 템플릿의 세부 속성값이 저장되는 이슈 템플릿 데이터베이스와,
상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿이 저장되는 통합 이슈 템플릿 데이터베이스를 더 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 웹문서는, 신문 또는 블로그 또는 소셜미디어정보 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 불용문서는, 스팸문서 또는 허위평판 문서 또는 편향문서 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 시간축 상의 변화정보는, 이슈의 빈도수 또는 연관 이슈 또는 속성값 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 웹문서 필터링부는,
광고를 포함한 스팸 문서와 웹 검색 시스템에서 랭킹을 올리기 위하여 특정 키워드를 의도적으로 반복적으로 기술한 스팸 문서를 필터링하는 스팸문서 필터링부와,
특정 이슈와 관련된 평판에 영향을 주기 위하여 반복적으로 해당 이슈에 대해 의도적으로 게시한 허위평판을 필터링하는 허위평판 필터링부와,
특정 이슈에 대하여 한 방향으로 편향된 의견의 문서를 필터링하는 편향문서 필터링부를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 7 항에 있어서,
상기 스팸문서 필터링부와, 상기 허위평판 필터링부와, 상기 편향문서 필터링부를 통해, 입력된 웹 문서가 필터링되는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 2 항에 있어서,
상기 이슈 지식베이스는, 이슈를 개체 클래스와 사건 클래스로 구분하여 계층적으로 정의하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치. - 제 9 항에 있어서,
상기 개체 클래스와 사건 클래스에는, 세부 속성 및 속성값의 유형 및 속성값의 제약조건 중 적어도 하나가 정의되는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 제 1 항에 있어서,
상기 이슈 템플릿 통합부는,
동일한 값이 다양한 형태로 표현되는 경우, 정규화된 표현으로 변환하는 속성값 정규화부와,
다수 개의 개체 템플릿 및 사건 템플릿에서 동일개체를 검색하고 하나의 노드로 통합하는 동일개체 통합부와,
다수 개의 사건 템플릿에서 동일 사건을 발견하고 하나의 사건으로 통합하는 동일사건 통합부를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 장치.
- 웹을 통해 제공되는 웹문서를 웹문서 수집부를 통해 수집하는 과정과,
상기 수집되는 웹문서를 대상으로 웹문서 필터링부에서 불용문서를 필터링하는 과정과,
상기 웹문서 필터링부를 통해 필터링되는 필터링 결과문서에서 이슈 탐지부가 신규 이슈를 탐지하는 과정과,
탐지되는 상기 신규 이슈에 대하여 이슈 템플릿 추출부를 통해 이슈 템플릿의 세부 속성값을 추출하는 과정과,
상기 이슈 템플릿 추출부를 통해 추출되는 이슈 템플릿을 이슈 템플릿 통합부를 통해 동일 엔터티 및 동일 이벤트를 기준으로 통합하는 과정과,
상기 이슈 템플릿 통합부를 통해 통합되는 이슈 템플릿을 이용하여 이슈 모니터링부를 통해 시간축 상의 변화정보를 외부로 표시하는 과정을 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 웹 동향 분석 방법은,
상기 신규 이슈에 대한 템플릿 정보를 추출하기 위한 개체 및 사건 템플릿을 이슈 지식베이스 수정부를 통해 정의하는 과정과,
상기 이슈 지식베이스 수정부를 통해 정의되는 개체 및 사건 템플릿을 기반으로 한 이슈 템플릿을 저장하는 과정을 더 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 웹문서는, 신문 또는 블로그 또는 소셜미디어정보 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 불용문서는, 스팸문서 또는 허위평판 문서 또는 편향문서 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 시간축 상의 변화정보는, 이슈의 빈도수 또는 연관 이슈 또는 속성값 중 적어도 하나를 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 불용문서를 필터링하는 과정은,
광고를 포함한 스팸 문서와 웹 검색 시스템에서 랭킹을 올리기 위하여 특정 키워드를 의도적으로 반복적으로 기술한 스팸문서를 필터링하는 과정과,
특정 이슈와 관련된 평판에 영향을 주기 위하여 반복적으로 해당 이슈에 대해 의도적으로 게시한 허위평판을 필터링하는 과정과,
특정 이슈에 대하여 한 방향으로 편향된 의견의 문서를 필터링하는 과정을 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 17 항에 있어서,
상기 불용문서를 필터링하는 과정은,
상기 스팸문서를 필터링하는 과정과, 상기 허위평판을 필터링하는 과정과, 상기 편향된 의견의 문서를 필터링하는 과정을 통해, 입력된 웹 문서를 필터링하는 과정을 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 이슈 템플릿 추출 기반의 웹 동향 분석 방법은,
상기 신규 이슈를 개체 클래스와 사건 클래스로 구분하여 계층적으로 정의하는 과정을 더 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
- 제 12 항에 있어서,
상기 통합하는 과정은,
동일한 값이 다양한 형태로 표현되는 경우, 정규화된 표현으로 변환하는 과정과,
다수 개의 개체 템플릿 및 사건 템플릿에서 동일개체를 검색하고 하나의 노드로 통합하는 과정과,
다수 개의 사건 템플릿에서 동일 사건을 발견하고 하나의 사건으로 통합하는 과정을 포함하는
이슈 템플릿 추출 기반의 웹 동향 분석 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20110102568A KR101510647B1 (ko) | 2011-10-07 | 2011-10-07 | 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 |
US13/614,558 US20130091145A1 (en) | 2011-10-07 | 2012-09-13 | Method and apparatus for analyzing web trends based on issue template extraction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20110102568A KR101510647B1 (ko) | 2011-10-07 | 2011-10-07 | 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130037975A KR20130037975A (ko) | 2013-04-17 |
KR101510647B1 true KR101510647B1 (ko) | 2015-04-10 |
Family
ID=48042780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20110102568A KR101510647B1 (ko) | 2011-10-07 | 2011-10-07 | 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130091145A1 (ko) |
KR (1) | KR101510647B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902535B (zh) * | 2012-12-24 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 获取联想词的方法、装置及系统 |
KR101532252B1 (ko) * | 2013-08-23 | 2015-07-01 | (주)타파크로스 | 소셜 네트워크 정보 수집 및 분석 시스템 |
KR101656447B1 (ko) * | 2014-05-23 | 2016-09-09 | 주식회사 솔트룩스 | 소셜 데이터 기반의 센서 웹 시스템 |
KR20160129548A (ko) | 2015-04-30 | 2016-11-09 | 한국과학기술정보연구원 | 맞춤형 국가 연구개발 정보 제공을 위한 시스템 및 방법 |
CN109325201A (zh) | 2018-08-15 | 2019-02-12 | 北京百度网讯科技有限公司 | 实体关系数据的生成方法、装置、设备及存储介质 |
CN110297904B (zh) * | 2019-06-17 | 2022-10-04 | 北京百度网讯科技有限公司 | 事件名的生成方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313258A1 (en) | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Identifying synonyms of entities using a document collection |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040083270A1 (en) * | 2002-10-23 | 2004-04-29 | David Heckerman | Method and system for identifying junk e-mail |
US7747625B2 (en) * | 2003-07-31 | 2010-06-29 | Hewlett-Packard Development Company, L.P. | Organizing a collection of objects |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US20060009994A1 (en) * | 2004-07-07 | 2006-01-12 | Tad Hogg | System and method for reputation rating |
US8010460B2 (en) * | 2004-09-02 | 2011-08-30 | Linkedin Corporation | Method and system for reputation evaluation of online users in a social networking scheme |
US20080040428A1 (en) * | 2006-04-26 | 2008-02-14 | Xu Wei | Method for establishing a social network system based on motif, social status and social attitude |
US8392358B2 (en) * | 2006-06-29 | 2013-03-05 | Nice Systems Technologies Inc. | Temporal extent considerations in reporting on facts organized as a dimensionally-modeled fact collection |
US20080034061A1 (en) * | 2006-08-07 | 2008-02-07 | Michael Beares | System and method of tracking and recognizing the exchange of favors |
US20080109491A1 (en) * | 2006-11-03 | 2008-05-08 | Sezwho Inc. | Method and system for managing reputation profile on online communities |
US7853589B2 (en) * | 2007-04-30 | 2010-12-14 | Microsoft Corporation | Web spam page classification using query-dependent data |
US20080307486A1 (en) * | 2007-06-11 | 2008-12-11 | Microsoft Corporation | Entity based access management |
US8010482B2 (en) * | 2008-03-03 | 2011-08-30 | Microsoft Corporation | Locally computable spam detection features and robust pagerank |
JP5423676B2 (ja) * | 2008-07-30 | 2014-02-19 | 日本電気株式会社 | データ分類システム、データ分類方法、及びデータ分類プログラム |
US8429099B1 (en) * | 2010-10-14 | 2013-04-23 | Aro, Inc. | Dynamic gazetteers for entity recognition and fact association |
US8484245B2 (en) * | 2011-02-08 | 2013-07-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
-
2011
- 2011-10-07 KR KR20110102568A patent/KR101510647B1/ko active IP Right Grant
-
2012
- 2012-09-13 US US13/614,558 patent/US20130091145A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313258A1 (en) | 2009-06-04 | 2010-12-09 | Microsoft Corporation | Identifying synonyms of entities using a document collection |
Also Published As
Publication number | Publication date |
---|---|
US20130091145A1 (en) | 2013-04-11 |
KR20130037975A (ko) | 2013-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101510647B1 (ko) | 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치 | |
AU2015203818B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
US9390176B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
JP2020135853A (ja) | 記述情報を決定する方法、装置、電子デバイス、コンピュータ可読媒体およびコンピュータプログラム | |
US10067965B2 (en) | Hierarchic model and natural language analyzer | |
JP4911438B2 (ja) | 操作監視装置 | |
US20170109358A1 (en) | Method and system of determining enterprise content specific taxonomies and surrogate tags | |
US10127292B2 (en) | Knowledge catalysts | |
AU2016228246B2 (en) | System and method for concept-based search summaries | |
US20150269138A1 (en) | Publication Scope Visualization and Analysis | |
CN112015912B (zh) | 一种基于知识图谱的指标智能可视化方法及装置 | |
CN106844638A (zh) | 信息检索方法、装置及电子设备 | |
JP2014102626A (ja) | レコメンド装置、プログラム、および方法 | |
KR20170043365A (ko) | 빅데이터를 이용한 중요 판례 추출 및 정리 방법 | |
US10885453B2 (en) | Calculation device, calculation method, and non-transitory computer-readable recording medium | |
JP2014109852A5 (ko) | ||
CN112241262A (zh) | 一种面向软件定义卫星的可复用代码提取、分析与检索方法与装置 | |
CN110781211B (zh) | 一种数据的解析方法及装置 | |
Chua et al. | MISQ research curation on data management | |
US20140006327A1 (en) | Programmatically identifying branding within assets | |
KR102025813B1 (ko) | 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법 | |
US12093222B2 (en) | Data tagging and synchronisation system | |
Jabeen et al. | Divided we stand out! Forging Cohorts fOr Numeric Outlier Detection in large scale knowledge graphs (CONOD) | |
CN113076396B (zh) | 一种面向人机协同的实体关系处理方法及系统 | |
JP2011053881A (ja) | 文書管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
FPAY | Annual fee payment |
Payment date: 20180403 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190325 Year of fee payment: 5 |