KR20190061668A - 지식 네트워크 분석 방법 - Google Patents

지식 네트워크 분석 방법 Download PDF

Info

Publication number
KR20190061668A
KR20190061668A KR1020170160289A KR20170160289A KR20190061668A KR 20190061668 A KR20190061668 A KR 20190061668A KR 1020170160289 A KR1020170160289 A KR 1020170160289A KR 20170160289 A KR20170160289 A KR 20170160289A KR 20190061668 A KR20190061668 A KR 20190061668A
Authority
KR
South Korea
Prior art keywords
knowledge network
knowledge
analysis method
tag value
present
Prior art date
Application number
KR1020170160289A
Other languages
English (en)
Inventor
김정식
Original Assignee
(주)타이거컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)타이거컴퍼니 filed Critical (주)타이거컴퍼니
Priority to KR1020170160289A priority Critical patent/KR20190061668A/ko
Publication of KR20190061668A publication Critical patent/KR20190061668A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자 명시적으로 작성한 해시태그 값을 분석해서 동시 출현한 태그값은 관계성 지표화해서 지식 네트워크 자료화하고, 지식 네트워크 자료를 근거로 연관검색어 추천 및 유사 자료를 검색할 수 있도록 하는 지식 네트워크 분석 방법을 제시한다. 제시된 방법은 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계, 및 지식 네트워크 자료를 조회하는 단계를 포함한다.

Description

지식 네트워크 분석 방법{Knowledge network analysis method}
본 발명은 지식 네트워크 분석 방법에 관한 것으로, 보다 상세하게는 피드 본문의 해시태그 키워드를 추출해서 축적한 지식 사전 기반으로 지식 네트워크를 분석하는 방법에 관한 것이다.
소셜 서비스가 대중화되면서 사용자들은 기존의 정형화된 글 작성 방식에서 좀 더 간단하게 축약되면서, 글 작성 표현이 많이 바뀌고 있다.
도메인별 약어, 전문 용어, 신조어, 줄임말 등 다양한 표현을 표준 사전으로는 의미 파악을 할 수 없다. 다양한 기계학습 알고리즘을 통해 추천 태그 기법들이 소개되고 있으나, 도메인 특성에 따라 정답률이 천차만별이고 만족할만한 성과를 못 내고 있는 것이 현실이다. 가장 큰 문제는 도메인별 특화된 사전이 선행되어야 한다는 것이다.
선행기술 1 : 대한민국 공개특허 제10-2002-0049164호(유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법) 선행기술 2 : 대한민국 등록특허 제10-1396131호(패턴 기반 관계 유사도 측정 장치 및 방법) 선행기술 3 : 대한민국 공개특허 제10-2016-0139112호(비정형 데이터 추출 및 익명화 장치)
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 사용자 명시적으로 작성한 해시태그 값을 분석해서 동시 출현한 태그값은 관계성 지표화해서 지식 네트워크 자료화하고, 지식 네트워크 자료를 근거로 연관검색어 추천 및 유사 자료를 검색할 수 있도록 하는 지식 네트워크 분석 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 지식 네트워크 분석 방법은, 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계; 및 지식 네트워크 자료를 조회하는 단계;를 포함한다.
이러한 구성의 본 발명에 따르면, 사용자가 명시적으로 작성한 해시태그 값을 분석하여 동시 출현한 태그값을 관계성 지표화해서 지식 네트워크 자료화할 수 있다. 그리고, 지식 네트워크 자료를 근거로 연관검색어 추천 및 유사 자료를 검색할 수 있다.
기존의 지식 연관성 분석은 다양한 기계학습 알고리즘으로 제시되어 왔다. 그러나, 도메인 특수성에 대응하기 어려운 현실에 학습을 통한 방안이 대안으로 여겨져 왔다. 다양한 사람들의 집단 지성을 활용할 수 있는 방안이 계속 제시되어 왔으며, 소셜 분야에서는 사용자의 입력 패턴과 지식 모으는 과정에서 추출하는 것이 가장 효과적이라고 판단된다. 소셜에서 사용자가 가장 잘 활용하고 있는 해시태그가 집단 지성을 활용한 지식 축적의 근간이라고 본다.
도 1은 본 발명의 실시예에 따른 지식 네트워크 분석 방법에서 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계에 채용되는 화면 예이다.
도 2는 본 발명의 실시예에 따른 지식 네트워크 분석 방법에서 지식 네트워크 자료를 조회하는 단계에 채용되는 화면 예이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 바람직한 실시양태에 따른 지식 네트워크 분석 방법은, 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계; 및 지식 네트워크 자료를 조회하는 단계;를 포함한다.
도 1은 본 발명의 실시예에 따른 지식 네트워크 분석 방법에서 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계에 채용되는 화면 예이고, 도 2는 본 발명의 실시예에 따른 지식 네트워크 분석 방법에서 지식 네트워크 자료를 조회하는 단계에 채용되는 화면 예이다.
사용자들의 해시태그는 함축적으로 키워드를 표현하는 수단이다. 그에 따라, 해당 해시태그 사전을 통해서 사용자 피드를 분석하고 의미를 파악하는 것이 가장 효과적이라고 본다.
사용자가 등록한 연속적인 해시태그는 본문 내용의 축약된 표현 및 본문 내용의 의미의 연관성을 표현하고 있다. 자연스럽게 태그 연속 출현이 연관성 지표가 된다.
본 발명의 실시예에 따른 지식 네트워크 분석 방법은, 먼저 피드 본문에서 해시태그값을 추출해서 지식 사전화한다. 다시 말해서, 도 1에 예시한 바와 같이 본문 내에 연속으로 등록한 해시태그값을 각각 등록 및 동시 출현 지표로 등록한다. 그리고, 해시 키워드 사전에는 같이 등록된 키워드 및 출현 회수를 관리한다. 전체 본문에서 자연어 처리를 통해서 명사 키워드를 전처리하고, 해당 사이트 기준으로 등록된 전체 본문에서 명사 키워드 전처리를 한다. 이후, 전체 본문을 기계학습 알고리즘인 Word2Vec로 명사 키워드간 관계성을 산정하고, 해시태그 관계성 지표에 가중치를 부여한다. 그리고, 해시태그 지표 및 Word2Vec 지표를 근거로 지식 네트워크 자료를 산정한다.
그리고 나서, 지식 네트워크 자료를 조회한다. 이 경우, 도 2에서와 같이 이슈 키워드 중심으로 연관 지식 네트워크 자료를 조회할 수 있다. 키워드와 거리로 연관성 지표를 높거나 낮게 표현한다.
또한, 상술한 본 발명의 지식 네트워크 분석 방법은, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (1)

  1. 피드 본문에서 해시태그값을 추출해서 지식 사전화하는 단계; 및
    지식 네트워크 자료를 조회하는 단계;를 포함하는 것을 특징으로 하는 지식 네트워크 분석 방법.
KR1020170160289A 2017-11-28 2017-11-28 지식 네트워크 분석 방법 KR20190061668A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170160289A KR20190061668A (ko) 2017-11-28 2017-11-28 지식 네트워크 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170160289A KR20190061668A (ko) 2017-11-28 2017-11-28 지식 네트워크 분석 방법

Publications (1)

Publication Number Publication Date
KR20190061668A true KR20190061668A (ko) 2019-06-05

Family

ID=66845239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170160289A KR20190061668A (ko) 2017-11-28 2017-11-28 지식 네트워크 분석 방법

Country Status (1)

Country Link
KR (1) KR20190061668A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543622A (zh) * 2019-08-02 2019-12-06 北京三快在线科技有限公司 文本相似度检测方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020049164A (ko) 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR101396131B1 (ko) 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
KR20160139112A (ko) 2015-05-26 2016-12-07 한국전자통신연구원 비정형 데이터 추출 및 익명화 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020049164A (ko) 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR101396131B1 (ko) 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
KR20160139112A (ko) 2015-05-26 2016-12-07 한국전자통신연구원 비정형 데이터 추출 및 익명화 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543622A (zh) * 2019-08-02 2019-12-06 北京三快在线科技有限公司 文本相似度检测方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11816441B2 (en) Device and method for machine reading comprehension question and answer
US20180300315A1 (en) Systems and methods for document processing using machine learning
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN104462085B (zh) 检索关键词纠错方法及装置
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
US9645988B1 (en) System and method for identifying passages in electronic documents
CN108038099B (zh) 基于词聚类的低频关键词识别方法
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
WO2015084404A1 (en) Matching of an input document to documents in a document collection
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
WO2016067396A1 (ja) 文の並び替え方法および計算機
Li et al. A hybrid model for role-related user classification on twitter
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
WO2012091541A1 (en) A semantic web constructor system and a method thereof
KR20190061668A (ko) 지식 네트워크 분석 방법
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Ren et al. Hybrid Chinese text classification approach using general knowledge from Baidu Baike
Uma et al. A survey paper on text mining techniques
Mahajani et al. Ranking-based sentence retrieval for text summarization
Lingwal Noise reduction and content retrieval from web pages
KR101274571B1 (ko) 콘텐츠를 검색하는 방법 및 장치