KR102279490B1 - 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 - Google Patents
정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 Download PDFInfo
- Publication number
- KR102279490B1 KR102279490B1 KR1020190155515A KR20190155515A KR102279490B1 KR 102279490 B1 KR102279490 B1 KR 102279490B1 KR 1020190155515 A KR1020190155515 A KR 1020190155515A KR 20190155515 A KR20190155515 A KR 20190155515A KR 102279490 B1 KR102279490 B1 KR 102279490B1
- Authority
- KR
- South Korea
- Prior art keywords
- content
- category
- internet site
- internet
- site
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000012545 processing Methods 0.000 title description 3
- 230000010365 information processing Effects 0.000 claims description 32
- 239000000284 extract Substances 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 17
- 238000012827 research and development Methods 0.000 description 10
- 239000003814 drug Substances 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 4
- 101100494773 Caenorhabditis elegans ctl-2 gene Proteins 0.000 description 2
- 101100112369 Fasciola hepatica Cat-1 gene Proteins 0.000 description 2
- 101100005271 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cat-1 gene Proteins 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010339 medical test Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000007848 Alcoholism Diseases 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 206010001584 alcohol abuse Diseases 0.000 description 1
- 208000025746 alcohol use disease Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000010412 perfusion Effects 0.000 description 1
- 230000009325 pulmonary function Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
이 개시는 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠에 관련된 키워드들을 입력데이터로 입력받는 단계; 상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계; 및 상기 추출된 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하는 단계;를 포함하는, 인터넷 사이트 정보를 이용한 정보처리방법을 포함한다.
Description
이하의 개시는 인터넷 사이트 정보를 이용한 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체에 관한 것이다.
인터넷 사이트와 같은 정보 제공 사이트로부터 많은 정보를 얻고 있는 현재, 해당 사이트 내 정보의 내용을 기반으로 해당 정보의 세부 분류를 얻는 과정이 필요한 경우가 있다. 예를 들면 R&D (research and development)에 대한 PIE (Platform for Investment and Evaluation) 투자 패키지 모델은 데이터 기반으로 정부 R&D 투자 방향을 결정함으로써 R&D의 전략성, 예측가능성, 및 사회적 역할 등을 제고하기 위해 추진되고 있다.
이러한 모델은 데이터 기반 투자 패키지 모델 개발의 첫 단계인데 여기서 가장 중요한 과정은 적용분야(LOCUS) 및 기술분류체계를 도출하는 것이라고 할 수 있다. 예를 들어 연구사업 초기에는 논문(SCOPUS)에 대한 클러스터링 이후 핵심 논문/키워드 추천을 시스템적으로 하고 기술 군에 대한 작명 과정(naming)은 인위적으로 지정하는 경향이 있었다. 그러나 이와 같이 특정 분야/카테고리에서 그 세부 분야/카테고리를 정하는 과정이 시간 소모적이거나 자동 분류체계로 수행되지 않아 불편한 문제점이 있었다.
복잡한 데이터를 기반으로 데이터에 포함된 기술 또는 컨텐츠의 세부 분류를 정하는 작업은 R&D 투자 등에 있어서 중요한 업무 중 하나이다. 예를 들어 R&D 투자 모델은 데이터를 기반으로 투자 방향을 결정하도록 할 수 있는데, R&D 투자의 전략성, 예측 가능성, 및 사회적 역할을 제고하도록 이루어져야 한다. 그런데, 데이터 기반의 투자 모델에 있어서 가장 중요한 과정 중 하나는 적용분야(LOCOS)나 기술분류체계를 결정하는 것이다.
예를 들어 연구 사업 초기에 논문 등에 대한 클러스터링(clustering) 후에 핵심 논문이나 핵심 키워드 추천 등을 통해 시스템적으로 기술 군에 대한 작명(naming) 과정을 인위적으로 결정하는 등의 과정이 수행되는데, 이러한 기술 군 작명 과정이나 기술분류작업이 쉽지 않아 자동화된 기술 또는 컨텐츠 분류 체계가 필요한 문제점이 있었다.
본 발명의 목적은 컨텐츠의 내용을 중심으로 컨텐츠 카테고리를 자동 추출할 수 있는 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체를 제공하는 것이다.
본 발명의 다른 목적은 인터넷 사이트와 같은 컨텐츠에 대해 컨텐츠 카테고리나 기술분류를 시스템적으로 결정할 수 있는 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체를 제공하는 것이다.
본 발명의 또 다른 목적은, R&D 투자 모델에 적용될 경우 데이터를 기반으로 세부 분야에 대한 투자를 결정할 수 있는 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체를 제공하는 것이다.
여기에 개시된 예는, 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠에 관련된 키워드들을 입력데이터로 입력받는 단계; 상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계; 및 상기 추출된 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하는 단계;를 포함하는, 인터넷 사이트 정보를 이용한 정보처리방법을 제공한다.
상기 키워드들은, 상기 컨텐츠 카테고리로부터 노이즈 제거를 위한 키워드들을 포함한다.
상기 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계는, 상기 인터넷 사이트와, 상기 인터넷 사이트에 링크 연결된 하위 인터넷 사이트들의 거리(distance)를 이용하여 상기 적어도 하나의 컨텐츠 카테고리들을 추출할 수 있다.
상기 거리(distance)는, 제 1 인터넷 사이트의 링크 연결된 제 1 서브 인터넷 사이트들과, 제 2 인터넷 사이트의 링크 연결된 제 2 서브 인터넷 사이트들 중 공통된 컨텐츠를 가지는 인터넷 사이트를 이용해 산출되는 레벨 차이 값(level gap)을 이용하여 산출될 수 있다.
상기 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계는, 상기 인터넷 사이트의 컨텐츠에 포함되는 컨텐츠 카테고리의 수 및 상기 컨텐츠 카테고리의 수에 대응되는 인터넷 사이트들의 수를 이용하여 정의되는 성숙도 지수에 기초해 추출될 수 있다.
다른 관점에서 실시예는, 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠 에 관련된 키워드들을 입력데이터로 입력받는 입력부; 상기 입력부에 입력된 상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 정보처리부; 및 상기 정보처리부가 추출한 상기 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하는 정보제공부;를 포함하는, 인터넷 사이트 정보를 이용한 정보처리장치를 제공한다.
또 다른 관점에서 실시예는 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠 에 관련된 키워드들을 입력데이터로 입력받고, 상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하고, 상기 추출된 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하도록 하는 프로그램을 저장하는 저장매체를 제공한다.
본 발명에 따르면, 컨텐츠의 내용을 중심으로 컨텐츠 카테고리를 자동 추출할 수 있다.
본 발명에 따르면, 인터넷 사이트와 같은 컨텐츠가 주어진 경우 이로부터 컨텐츠 카테고리나 기술분류를 시스템적으로 결정할 수 있다.
본 발명에 따르면, R&D 투자 모델에 적용될 경우 컨텐츠의 데이터를 기반으로 투자 등을 결정할 수 있는 기술분류체계 등을 자동적으로 추출할 수 있다.
도 1은 정보처리방법의 일 실시예를 개시한 도면이다.
도 2는 정보처리장치의 일 실시예를 개시한 도면이다.
도 3은 컨텐츠 카테고리의 노이즈 제거를 위해 사용하는 레벨 차이 (level gap) 값이나 컨텐츠를 포함하는 인터넷 사이트 사이의 거리(distance)를 정의하여 이를 처리하는 방식을 예시한 개념도이다.
도 4는 컨텐츠 카테고리로부터 서브 컨텐츠 카테고리를 자동으로 추출할 경우 서브 컨텐츠 카테고리의 노이즈 제거를 위해 사용되거나 선별하는데 필요한 지수를 예시한 도면이다.
도 5는 관심 컨텐츠에 대해 자동으로 추출된 컨텐츠 카테고리와 부차적인 결과를 제공한 예를 개시한 도면이다.
도 6은 실시 예에 따라 특정 컨텐츠의 서브 컨텐츠 카테고리를 사용자에게 제공할 경우 일 예를 개시한 도면이다.
도 7은 정보처리방법의 다른 일 실시예를 개시한 도면이다.
도 8은 레벨 차이 값(level_gap)의 통계정보를 이용하여 산출된 서브 컨텐츠 카테고리를 정확하게 추출하도록 하는 예를 개시한 도면이다.
도 9는 레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보를 이용하여 산출된 컨텐츠 카테고리의 노이즈를 제거하거나 선별하는 예를 개시한 도면이다.
도 10은 도 6에서 제공한 결과의 다른 형식을 나타낸 도면이다.
도 2는 정보처리장치의 일 실시예를 개시한 도면이다.
도 3은 컨텐츠 카테고리의 노이즈 제거를 위해 사용하는 레벨 차이 (level gap) 값이나 컨텐츠를 포함하는 인터넷 사이트 사이의 거리(distance)를 정의하여 이를 처리하는 방식을 예시한 개념도이다.
도 4는 컨텐츠 카테고리로부터 서브 컨텐츠 카테고리를 자동으로 추출할 경우 서브 컨텐츠 카테고리의 노이즈 제거를 위해 사용되거나 선별하는데 필요한 지수를 예시한 도면이다.
도 5는 관심 컨텐츠에 대해 자동으로 추출된 컨텐츠 카테고리와 부차적인 결과를 제공한 예를 개시한 도면이다.
도 6은 실시 예에 따라 특정 컨텐츠의 서브 컨텐츠 카테고리를 사용자에게 제공할 경우 일 예를 개시한 도면이다.
도 7은 정보처리방법의 다른 일 실시예를 개시한 도면이다.
도 8은 레벨 차이 값(level_gap)의 통계정보를 이용하여 산출된 서브 컨텐츠 카테고리를 정확하게 추출하도록 하는 예를 개시한 도면이다.
도 9는 레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보를 이용하여 산출된 컨텐츠 카테고리의 노이즈를 제거하거나 선별하는 예를 개시한 도면이다.
도 10은 도 6에서 제공한 결과의 다른 형식을 나타낸 도면이다.
이하의 발명의 실시예를 첨부된 도면을 첨부하고 첨부한 도면을 참조하고 실시예를 상세히 개시한다.
도 1은 정보처리방법의 일 실시예를 개시한 도면이다. 도 1을 참조하여 개시된 실시예를 설명하면 다음과 같다.
먼저 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 콘텐츠 카테고리에 관련된 키워드들을 입력데이터로 입력 받는다 (S100).
입력된 키워드는 컨텐츠 카테고리와 관련된 키워드를 입력할 수 있는데 예를 들어 컨텐츠가 기술에 관련된 것이라면 해당 기술에 포함될 수 있는 키워드를 입력할 수 있다. 또는 컨텐츠 또는 기술 카테고리 추출에 필요하지 않아야 하는 키워드를 추가적으로 입력할 수 있다. 이러한 경우에는 이하의 단계에서 해당 키워드가 포함된 인터넷 사이트를 해당 컨텐츠 또는 기술 카테고리 추출을 수행할 경우 제외하도록 할 수 있다.
상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출한다(S200).
컨텐츠 카테고리를 추출할 경우, 인터넷 사이트들로부터 그 사이트들에 포함된 키워드에 링크로 연결된 하위 인터넷 사이트들까지의 링크 연결 거리들을 기초로, 컨텐츠를 포함하는 인터넷 사이트의 거리를 측정하고 해당 컨텐츠가 일정 수준의 범위에 있는 경우, 이를 컨텐츠 카테고리로 추출할 수 있다.
상기 해당 컨텐츠가 일정 수준 범위에 있는지 판단할 경우, 노이즈 제거 과정을 통해 컨텐츠 카테고리를 결정할 수 있다.
예를 들어 그리고 위와 같은 방식으로 노이즈가 제거된 경우에도 통계 방식을 이용하여 상기 컨텐츠 카테고리들 중 선별적으로 그리고 개념적으로 하위 개념의 컨텐츠 카테고리의 범위를 결정하도록 하여 최종으로 추출된 컨텐츠 카테고리를 사용자에게 제공할 수 있다.
설명한 노이즈 제거 과정이나 또는 키워드로 추출된 컨텐츠 카테고리가 컨텐츠의 정확한 분류인지를 결정하기 위해 아래에서 정의한 레벨 차이 값 또는 성숙도 지수 및 그 통계 데이터를 사용할 수 있다.
이에 대한 상세한 실시예는 이하에서 도면을 참조하여 설명한다.
위의 과정을 통해 추출된 카테고리들 중 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공한다 (S300). 이에 대한 상세한 설명은 이후 도면을 참고하여 설명한다.
도 2는 정보처리장치의 일 실시예를 개시한 도면이다. 이 도면을 참조하여 개시된 실시예를 설명하면 다음과 같다.
개시한 일 실시예는 입력부(110), 정보처리부(120) 및 정보제공부(130)를 포함한다.
입력부(110)는 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠에 관련된 키워드들을 입력데이터로 입력 받는다. 예를 들어 인공지능과 관련된 컨텐츠에 대한 인터넷 사이트를 기초로 인공지능에 대한 컨텐츠 카테고리를 찾는 경우, 딥러닝(deep learning), 인공뉴런네트워크(artificial neural network) 등의 키워드를 입력 받을 수 있다.
입력부(110)는 입력된 키워드와 대상 인터넷 사이트들로부터 상기 사이트들에서 키워드와 관련된 컨텐츠 카테고리를 자동으로 산출할 수 있다. 이 경우 입력되는 데이터에는 이런 컨텐츠 카테고리를 산출하는데 있어서 고려하지 않아야 할 키워드를 입력 받을 수도 있다.
예를 들어 이 도면의 예에서 위와 같이 인공지능과 관련된 컨텐츠에 대한 인터넷 사이트를 대상으로 인공지능의 기술 카테고리를 추출한다면, 기술 카테고리와 관련되지 않는 articles, films, scientists, Google, Free software 등의 용어는 그 하위 기술 분류에 적절하지 않은 키워드로서, 이를 입력 데이터에 관련성 없는 입력데이터로 입력하면 정보처리를 하는 동안 고려하지 않도록 할 수 있다.
이와 같이 입력부(110)는 인터넷 사이트의 컨텐츠와 관련된 키워드를 입력데이터로 수신한다. 입력부(110)는 인터넷 사이트의 컨텐츠와 관련된 주요 키워드에 대해 입력데이터를 입력받는데 예를 들어 텍스트 파일 형식으로 입력데이터를 수신 받을 수도 있다. 마찬가지로 컨텐츠 카테고리를 산출하는데 적절하지 않은 키워드를 텍스트 형식으로 입력받을 수도 있다.
정보처리부(120)는 입력데이터를 이용하여 인터넷 사이트로부터 해당 컨텐츠 와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출한다. 정보처리부(120)는 인터넷 사이트로부터 상기 입력된 입력데이터를 검색하고 상기 검색한 인터넷 사이트들과 그 사이트들의 링크 연결된 인터넷 사이트들로부터 키워드와 관련된 컨텐츠의 컨텐츠 카테고리를 추출한다.
정보처리부(120)는 인터넷 사이트로부터 입력데이터와 관련된 적어도 하나의 컨텐츠 카테고리를 추출할 수 있는데 이 경우 인터넷 사이트들과 그 인터넷 사이트들과 연결된 인터넷 사이트들의 링크 연결 수에 기초하여 산정된 레벨 차이 값 (level gap) 을 이용하여 인터넷 사이트의 컨텐츠에 대한 컨텐츠 카테고리를 추출할 수 있다. 레벨 차이 값 (level gap)에 대한 정의는 아래에서 상세히 설명한다.
정보처리부(120)가 상기 인터넷 사이트와 링크 연결된 인터넷 사이트들로부터 노이즈 카테고리를 제거할 수 있는데, 상기 레벨 차이 값에 대한 통계 데이터를 이용하여 상기 컨텐츠 카테고리에 대한 노이즈를 제거할 수 있다. 노이즈 카테고리의 제거의 예는 아래에서 상세히 설명한다.
정보처리부(120)는 노이즈가 제거된 컨텐츠 카테고리가, 상기 의 레벨 차이 값 (level gap)과 성숙도 (maturity) 지수에 대한 통계 데이터에 기초하여 상기 키워드와 관련된 컨텐츠의 카테고리로 판단할 수 있는지를 선별할 수 있다. 성숙도 (maturity) 지수에 대한 정의는 아래에서 상세히 설명한다. 노이즈 카테고리 제거와 선별적인 카테고리의 결정에 대한 과정은 아래에서 상세히 설명한다. 기타 정보처리부(120)에 대한 상세한 예는 이하에서 도면을 참조하여 상세히 개시한다.
정보제공부(130)는 추출된 컨텐츠 카테고리를 사용자에게 제공한다. 예를 들어 컨텐츠 카테고리는 중분류, 세분류, 세세분류 등의 계층적 분류 체계로 사용자에게 제공될 수 있다. 정보제공부(130)가 제공하는 정보의 상세한 예는 이하의 도면을 참조하여 상세히 설명한다.
도 3은 컨텐츠 카테고리의 노이즈 제거를 위해 사용하는 레벨 차이 값 (level gap) 이나 컨텐츠를 포함하는 인터넷 사이트 사이의 거리(distance)를 정의하여 이를 처리하는 방식을 예시한 개념도이다.
이 도면에서 카테고리 별 컨텐츠를 포함하는 여러 인터넷 사이트(A1, A2,…, An)를 포함하는 인터넷 사이트들에 포함된 키워드들의 링크 연결들을 통해 연결된 인터넷 사이트(B1, …,Bn)에 접속할 수 있다. 상기 연결된 인터넷 사이트(B1, …,Bn)는 상기 인터넷 사이트(A1, A2,…, An)의 컨텐츠 카테고리에 포함되는 서브 카테고리 컨텐츠를 포함할 수 있다.
이 경우, 레벨 차이 값 (level gap)은 각 인터넷 사이트(A1, A2,…,An)를 링크 연결을 통해 들어갈 경우, 각 인터넷 사이트(A1, A2,…,An)와 그 인터넷 사이트(A1, A2,…, An)들의 공유된 컨텐츠를 가지는 인터넷 사이트까지의 거리를 이용하여 정의될 수 있다.
즉, 여기서 인터넷 사이트간의 거리(distance)는, 제 1 인터넷 사이트의 링크 연결된 제 1 서브 인터넷 사이트들과, 제 2 인터넷 사이트의 링크 연결된 제 2 서브 인터넷 사이트들 중 공통된 컨텐츠를 가지는 인터넷 사이트를 이용해 산출되는 레벨 차이 값(level gap)을 이용하여 산출될 수 있다.
예를 들어 카테고리 1의 컨텐츠를 가지는 사이트(A1)을 소스 사이트, 카테고리 사이트 2 또는 n (A2 or An)의 컨텐츠를 가지는 사이트를 각각 타겟 사이트들이라고 정의할 수 있다.
이 경우 카테고리 1의 사이트(A1)와 카테고리 사이트 2(A2)가 링크를 통해 연결된 공유 사이트를 (B1)이라고 하고, 소스 카테고리 사이트 1(A1)로부터 2회의 링크 연결을 통해 공유 사이트 (B1)까지 도달한다면, 두 사이트의 소스 링크 뎁스 거리(source_up_depth)를 2로 나타낼 수 있다.
마찬가지로 타겟 카테고리 사이트 2(A2)로부터 3회의 링크 연결을 통해 공유 사이트 B1까지 도달한다면, 두 사이트의 타겟 링크 뎁스 거리(target_up_depth)를 3으로 나타낼 수 있다.
이 개시에서 레벨 차이 값 (level gap)은 소스 사이트로부터의 공유 사이트까지의 거리(소스 링크 뎁스 거리(source_up_depth))와 타겟 사이트로부터 상기 공유 카테고리 사이트까지의 거리(타겟 링크 뎁스 거리(target_up_depth))의 차이로 나타낼 수 있다. 여기서 공유 카테고리 사이트는 컨텐츠의 카테고리가 공통된 내용을 포함하거나 오버랩 되는 인터넷 사이트로 정의한다.
또한 이 개시에서 소스 사이트와 타겟 사이트의 거리는, 소스 사이트로부터의 공유 카테고리 인터넷 사이트까지의 거리(소스 링크 뎁스 거리(source_up_depth))와 타겟 사이트로부터 상기 오버랩된 사이트까지의 거리(distance) (타겟 링크 뎁스 거리(target_up_depth))의 합으로 나타낼 수 있다.
본 개시에서 공유 카테고리 인터넷 사이트(B1)에 대해 타겟 사이트 (A2)에 대한 소스 사이트 1 (A1)의 레벨 차이 값은 -1이고, 상기 공유 카테고리 인터넷 사이트(B1)에 대해 타겟 사이트 (A2)에 대한 소스 사이트 1 (A1)의 거리(distance)는 5가 된다.
이와 같이 공유 카테고리 인터넷 사이트에 대해 타겟 사이트에 대한 소스 사이트의 거리가 음수이면 소스 사이트가 타겟 사이트에 비해 상위 수준의 카테고리를 가진 사이트이고, 해당 거리가 양수이면 소스 사이트가 타겟 사이트에 비해 하위 수준의 카테고리를 가진 사이트가 될 수 있다. 이에 대한 정의는 다른 방법으로도 가능하다.
거리(distance)는 인터넷 사이트들의 링크 연결 회수를 통해 연결된 정도를 나타내므로 거리가 먼 경우, 인터넷 사이트들의 상관성 또는 연관성이 떨어질 수 있다. 따라서, 특정 컨텐츠를 포함하는 인터넷 사이트로부터 컨텐츠 카테고리를 추출할 경우 거리(distance)의 임계 치를 설정하여 컨텐츠 카테고리 선정에 이용할 수도 있다.
이와 같이 특정 컨텐츠에서 적어도 하나의 컨텐츠 카테고리를 추출하는 단계는, 상기 컨텐츠 카테고리들에 대한 컨텐츠 카테고리의 레벨 차이 값 (level gap)을 얻고 이를 이용하여 특정 컨텐츠로부터 컨텐츠 카테고리를 얻을 수 있다.
도 4는 컨텐츠로부터 컨텐츠 카테고리를 자동으로 추출할 경우 추출된 컨텐츠 카테고리의 노이즈 제거를 위해 사용되거나 정확한 카테고리인지 선별하는데 필요한 지수를 예시한 도면이다.
이 도면에서 컨텐츠와 관련된 키워드로부터 컨텐츠 카테고리를 자동 추출할 경우 추출되는 정도를 제어하고 노이즈를 제거하기 위해 지수를 정의한다.
이 개시에서는 지수를 성숙도(maturity)로 호칭하는데, 각 컨텐츠 카테고리와 연관된 자식 카테고리의 수와 페이지수를 활용하여 개별 카테고리의 성숙도를 정규화한 지수이며, 이를 활용하면 각 카테고리를 선별할지 제거할 지 판단할 수 있다.
이 도면에서 카테고리 1 내지 n (cat1, …, catn)은, 해당 인터넷 사이트에 관련된 컨텐츠 카테고리를 각각 나타내고, A_i (i=1,…,n)은 각 컨텐츠 카테고리를 포함하는 인터넷 사이트들에 링크를 통해 연결되는 인터넷 사이트들의 컨텐츠로 얻을 수 있는자식 카테고리의 수를 각각 나타낸다. 그리고 B_i (i=1,…,n)은 각각 카테고리에 대응되는 인터넷 사이트의 페이지 수나타낸다.
즉 성숙도 지수는, 특정 인터넷 사이트의 컨텐츠에 포함되는 자식카테고리의 수 및 상기 자식 카테고리의 수에 대응되는 인터넷 사이트들의 수를 이용하여 정의될 수 있다.
이 예에서 컨텐츠 카테고리 cat1은 A1개의 자식 카테고리를 가지고 있고, B1개의 인터넷 페이지 수를 가지고 있다.
이 경우 성숙도는 아래의 수식 1에 따라 정의될 수 있다. 여기서 가중치(알파)는 자식 카테고리 수 또는 그 자식 카테고리에 해당하는 페이지 수에 대해 가중치(알파)를 나타낸 것으로 예를 들어 0.5와 같은 임의의 지수로 정의할 수 있다.
[수식 1]
이와 같은 성숙도 지수를 이용하면 해당 컨텐츠를 가진 인터넷 사이트의 하위 수준의 카테고리 중 사용자에게 제공하고자 하는 하위 컨텐츠 카테고리의 수준을 설정하여 사용자에게 해당 수준에 따라 컨텐츠 카테고리를 제공할 수 있다.
도 5는 키워드를 이용하여 특정 컨텐츠로부터 컨텐츠 카테고리를 자동으로 추출하여 그 결과를 제공한 예를 개시한 도면이다. 이 도면을 참조하여 사용자에게 컨텐츠 카테고리를 자동으로 제공하는 예를 설명하면 다음과 같다.
이 도면은 정밀의료라는 컨텐츠에 관한 키워드로 “precision medicine”을 입력하고 이를 인터넷 사이트로부터 검색한 결과를 나타낸다.
source (210)는 해당 키워드와 관련된 컨텐츠 카테고리, level_gap (220)은 위에서 설명한 레벨 차이 값, Pecentile_rank (230)는 레벨 차이 값으로부터 얻은 백분위 확률, subcategories (240)은 해당 source (210)의 컨텐츠에 하위 개념의 자식카테고리, pages (250)는 해당 source (210)의 카테고리에 대응하는 웹 페이지들, num_subcategories (260)은 subcategories (240)의 수, num_pages(270)은 pages (250)의 개수, 및 maturity (280)은 위 수식 1로 표현한 각 컨텐츠 카테고리의 성숙도를 각각 나타낸다. maturity 지수 산정 시 가중치 계수는 0.5인 경우를 가정하였다.
이 결과는 예를 들어 source (210)인 컨텐츠 카테고리가 medical tests일 경우, 이 실시예의 level_gap (220)은 -0.239, Pecentile_rank (230)은 0.409로 카테고리는 blood tests, Pulmonary function 등으로 추출된 결과를 예시한다.
이 실시는 이러한 카테고리를 담고 있는 웹 페이지들로서 medical test, acid perfusion test 등을 나타낼 수 있으며, subcategories 의 수 (260)는 27, pages 의 개수 (270)은 199, 성숙도(280)는 0.524 로 산출된 예를 나타낸다.
이 예에서 source (210)에서 Pharmaceutical industry라는 컨텐츠 카테고리가 추출된 경우도 이 기술의 기술 분류를 위와 유사한 방식으로 나타내어 사용자에게 제공할 수 있다. 따라서 실시 예에 따르면 기술 카테고리에 대해 세부 기술 분류에 대한 컨텐츠 카테고리를 용이하게 얻을 수 있거나, 특정 컨텐츠에 대해 컨텐츠 카테고리를 사용자에게 제공할 수 있다.
도 6은 실시 예에 따라 특정 컨텐츠의 컨텐츠 카테고리를 사용자에게 제공할 경우 일 예를 개시한 도면이다.
이 경우 위키피디아 인터넷 사이트에서 특정 기술(컨텐츠)에 해당하는 기술 섹터(컨텐츠 카테고리)를 추출하도록 하고 그 결과를 나타낸 도면이다.
위키피디아 인터넷 사이트의 경우 각 페이지는 여러 가지 카테고리의 레벨로 이루어져있다. 예를 들어 Biomaker 용어를 위키피디아를 통해 서치할 경우 이 결과 페이지에 포함된 카테고리는 biological techniques and tools, biology terminology, biomarkers 등을 포함한다.
일정 컨텐츠를 기준하였을 경우 즉, 위키피디아의 각 페이지는 서로 다른 수준의 컨텐츠 카테고리를 포함할 수도 있다. 이러한 컨텐츠 카테고리의 링크 연결된 하위 페이지를 따라가면 인터넷 페이지들은 서로 순환 관계를 이루는 경우도 있고 비순환 관계를 이루는 경우도 있다.
인터넷 사이트가 순환관계에 있다는 것은 A 인터넷 사이트의 페이지를 링크 연결을 통해 하위 B, C 및 D 인터넷 사이트 페이지들로 순차적으로 이동할 경우 하위 B, C 및 D 인터넷 사이트 페이지에서 다시 A 인터넷 사이트 페이지로 이동할 수 있는 링크 연결이 있다는 것으로 의미한다.
반면에 인터넷 사이트가 비순환관계에 있다는 것은, A 인터넷 사이트의 페이지를 링크 연결을 통해 하위 B, C 및 D 인터넷 사이트 페이지들로 들어갈 경우 다시 A 인터넷 사이트의 페이지로 돌아올 수 없는 것을 의미한다.
이 도면은 Precision medicine와 관련된 키워드를 이용해 해당 키워드와 관련된 컨텐츠 카테고리를 찾은 결과를 예시한다.
Precision medicine와 관련된기술 용어를 위키피디아에서 찾고, 그 결과를 위의 실시 예에 따라 성숙도(maturity)와 레벨 차이 값(level_gap)의 관계로 표현하여 사용자에게 제공할 경우 사용자는 이 도면에서 표시된 내용과 같은 결과를 얻을 수 있다.
이 예에서 성숙도(maturity)와 레벨 차이 값(level_gap)의 범위를 필터로 이용하면 해당 인터넷 사이트로부터 Precision medicine에 관련된 컨텐츠에 포함되는 컨텐츠 카테고리를 얻을 수 있다. 도면에서 Precision medicine 컨텐츠의 컨텐츠 카테고리는 밝은 원형으로 표시하였다. 이 예에서 Precision medicine의 컨텐츠 카테고리는 supercomputing, Biostatistics, alternative medicine, pharmacy, alcohol abuse, chemical pathology, genomics, Epidemiology, ISO standards 등이 될 수 있다.
반면에 성숙도(maturity)와 레벨 값(level_gap)의 일정 범위를 벗어난 카테고리의 경우 이 도면은 어두운 원 형태로 나타내었다.
Molecular biology, Emerging technologies, Pseudoscience, biotechnology 등은 Precision medicine와 거리가 있는 카테고리로 판단할 수 있다.
따라서, 개시된 실시 예에 따르면 특정 인터넷 사이트에 대해 관련 있는 키워드를 입력할 경우 해당 인터넷 사이트에서 입력된 키워드와 관련된 카테고리를 얻을 수 있다. 그리고 얻은 카테고리는 위의 개시된 예에서 정의된 성숙도(maturity)와 레벨 차이 값(level_gap)을 이용하여 노이즈를 제거하고 사용자에게 제공할 수 있다. 따라서, 관심 컨텐츠의 카테고리를 인위적으로 결정할 필요없이 해당 인터넷 사이트의 정보를 기반으로 컨텐츠 카테고리를 선별하여 사용자에게 제공할 수 있다.
이하에서는 상기 입력데이터를 이용하여 상기 컨텐츠 카테고리와 관련된 적어도 하나의 서브 컨텐츠 카테고리들을 추출할 경우(도 1의 S200) 노이즈 제거하거나 서브 컨텐츠 카테고리를 선별하여 서브 컨텐츠 카테고리를 추출의 정확도를 높이는 과정을 도면을 참조하여 설명한다.
도 7은 정보처리방법의 다른 일 실시 예를 개시한 도면이다. 이 도면을 참조하여 컨텐츠 카테고리를 포함하는 인터넷 사이트로부터 입력된 키워드에 근거하여 컨텐츠 카테고리를 추출하는 예를 설명하면 다음과 같다.
특정 컨텐츠를 포함하는 인터넷 사이트를 기반으로 상기 컨텐츠의 컨텐츠 카테고리를 추출할 경우, 사용자로부터 특정 컨텐츠에 관련된 키워드를 입력 받을 수 있다(S100).
설명한 바와 같이 입력데이터에 컨텐츠 카테고리의 노이즈를 제거할 수 있는 입력 키워드를 함께 입력받을 수 있다.
그 경우 입력된 키워드를 근거로 특정 컨텐츠를 가진 인터넷 사이트 중 노이즈 제거를 위한 입력 키워드를 가진 인터넷 사이트 또는 그 인터넷 사이트의 컨텐츠 카테고리는 사용자에게 제공할 경우 노이즈를 미리 제거할 수 있다(S210).
입력데이터를 이용하여 컨텐츠를 포함하는 인터넷 사이트들과 해당 컨텐츠의 컨텐츠 카테고리를 포함하는 인터넷 사이트들을 얻을 수 있다.
특정 컨텐츠 카테고리와 그 카테고리의 자식 컨텐츠 카테고리를 포함하는 인터넷 사이트들 사이의 거리(distance)나 레벨 차이 값(level_gap)을 이용하여 컨텐츠 카테고리의 노이즈를 제거할 수 있다(S220).
예를 들어 특정 컨텐츠와 그 컨텐츠의 컨텐츠 카테고리를 포함하는 인터넷 사이트들 사이의 거리(distance)들을 행렬로 표시하고, 여기에 DBSCAN (Density based spatial clustering of application with noise)과 같은 모델을 이용하여 카테고리들간의 밀도 분포와 거리 통계 분포를 통해 밀도가 높은 카테고리들로부터 위에서 정의한 거리가 먼 카테고리들은 제거할 수 있다.
만약 컨텐츠 카테고리를 산정하는 데 있어서 이와 같은 DBSCAN 모델을 이용한다고 한다면, DBSCAN 모델의 중심 값(Eps)과 해당 군집에 포함될 데이터의 수(Minpts)의 값이 상기 S100의 입력데이터에 포함될 수 있다. 즉 입력단계(S100)에서 입력데이터는 DBSCAN 모델의 중심 값(Eps)과 해당 군집에 포함될 데이터의 수(Minpts)의 값 및, 컨텐츠 카테고리를 산정하는 키워드들을 포함할 수 있다.
만약 입력데이터 중 특정 컨텐츠를 나타내는 키워드를 이용하여 검색한 인터넷 사이트들로부터 산출한 컨텐츠 카테고리들에 포함된 노이즈를 위와 같이 DBSCAN 모델 등과 같은 방식 등으로 제거할 경우와 같이 상위 단계에서 노이즈가 제거된 경우(S210, S220), 상기 노이즈가 제거된 컨텐츠 카테고리들의 레벨 차이 값(level_gap) 또는/및 위에서 설명한 성숙도(maturity) 중 적어도 하나의 정보 또는 그 통계 값을 이용하여 카테고리의 노이즈를 다시 제거할 수 있다(S230).
즉, 여기에서는 산출된 컨텐츠 카테고리들 중 노이즈가 제거된 컨텐츠 카테고리들의 레벨 차이 값(level_gap) 또는/및 성숙도(maturity) 중 적어도 하나의 통계 값을 이용하여 를 다시 산출하여 컨텐츠 카테고리에 대한 노이즈를 제거할 수도 있다.
여기서 레벨 차이 값(level_gap)의 통계 데이터를 이용할 수 있는데 이 통계 데이터는 레벨 차이 값(level_gap)들의 평균일 수도 있으며, 산출된 컨텐츠 카테고리간의 계층 구조의 수준을 알 수 있는 통계 값이면 어떤 것이든 입력데이터 또는 그 입력데이터로부터 검색된 컨텐츠 카테고리의 노이즈를 제거하는데 이용될 수 있다.
컨텐츠 카테고리의 노이즈를 제거하기 위해 통계 데이터를 이용하는 예는 아래의 도면들을 상세히 참조하여 설명한다.
서브 컨텐츠 카테고리의 노이즈 제거와 정제된 데이터를 사용하기 위해 S220 및 S230은 적어도 하나의 단계를 1회 이상 반복하여 진행될 수 있다. 입력된 키워드와 추출된 컨텐츠 카테고리들은 링크로 연결된 자식 카테고리들을 포함하여 카테고리 집합을 생성할 수 있고 이러한 카테고리들에 대해서 정합하는 정도를 높이기 위해 S220 및 S230 중 적어도 하나의 단계를 1회 이상 반복하여 노이즈를 제거하거나 추출된 컨텐츠 카테고리를 선별하여 제공할 수 있다.
상기 추출된 컨텐츠 카테고리 중 적어도 하나의 컨텐츠 카테고리를 사용자에게 제공한다(S300). 사용자에게 제공하는 컨텐츠 카테고리의 예는 위에서 설명하였으나 아래의 도면에서 다른 예를 개시하도록 한다.
아래 순차적으로 개시되는 3개의 도면들은 위에서 설명한 레벨 차이 값 (level_gap) 또는/및 성숙도(maturity)를 이용하여 산출된 컨텐츠 카테고리의 노이즈를 제거하거나 선별하는 과정을 예시한다.
도 8은 위에서 설명한 레벨 차이 값 (level_gap)의 통계정보를 이용하여 산출된 서브 컨텐츠 카테고리를 보다 정확하게 추출할 수 있는 예를 개시한다.
입력된 키워드에 근거하여 특정 컨텐츠를 가지고 있는 인터넷 사이트로부터 상기 컨텐츠의 컨텐츠 카테고리들을 얻은 경우, 상기 얻은 컨텐츠 카테고리들과, 상기 상위의 특정 컨텐츠 카테고리를 이용하여 카테고리의 레벨 차이 값(level_ gap)들을 얻을 수 있다.
이 도면은 이렇게 얻은 카테고리들에 대응되는 인터넷 사이트들 간의 레벨 차이값의 히스토그램을 나타낸다. 예시한 레벨 차이 값의 히스토그램은 키워드를 통해 특정 컨텐츠의 카테고리를 찾은 경우, 각 카테고리에 관한 레벨 차이 값의 통계 데이터의 히스토그램은 도면에 예시한 바와 유사할 수 있다. 이 경우 레벨 차이 값의 통계 데이터를 이용하여 레벨 차이 값이 너무 크거나 작은 컨텐츠 카테고리의 경우 노이즈로 판단하여 제거할 수 있다.
예를 들면 레벨 차이 값이 +2 이상 또는 -2 이하인 경우 해당 레벨 차이 값에 대응하는 컨텐츠 카테고리는 노이즈로서 제거할 수 있다.
도 9는 위에서 설명한 레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보를 이용하여 산출된 컨텐츠 카테고리의 노이즈를 제거하거나 선별하는 예를 개시한다.
먼저 입력된 키워드를 검색하여 키워드를 포함하는 컨텐츠들을 도출하고 각 컨텐츠가 포함하는 카테고리들을 얻을 경우, 이들에 대응되는 인터넷 사이트의 링크 연결 거리인 레벨 차이 값(level_gap)을 산출할 수 있다.
설명한 바와 같이 레벨 차이 값(level_gap)이 너무 큰 경우 또는 작은 경우 관련성이 낮을 수 있기 때문에 일정 범위의 레벨 차이 값(level_gap)을 가지는 인터넷 사이트들의 컨텐츠 카테고리만을 선택하여 사용자에게 제공할 수 있다.
예를 들어 레벨 차이 값(level_gap)이 낮은 값부터 높은 값까지의 백분위를 표현할 수 있다.
예를 들어 레벨 차이 값(level_gap)에 대한 백분위수(Percentile)값을 정하는데, 레벨 차이 값(level_gap)이 음수로 가장 낮은 값을 백분위수 0으로 하고, 레벨 차이 값(level_gap)이 양수로 가장 큰 값에 대해서 백분위수를 1로 할 수 있다.
여기의 예에서는 백분위의 0.4 내지 0.9 정도의 값을 가지는 인터넷 사이트들은 그 사이트들이 포함하는 컨텐츠 카테고리들을 선택(선택영역)하여 사용자에게 제공할 수 있다.
백분위 0.4 이하의 영역은 노이즈 영역으로 이 영역에 있는 컨텐츠 카테고리는 사용자에게 제공하지 않는다.
그리고 0.9 내지 1의 레벨 차이 값(level_gap)의 백분위로 나머지 영역은 사용자에게 선별적으로 컨텐츠 카테고리를 제공할 수 있다.
여기서 백분위 분류에 사용된 위의 기준 값은 하나의 예시이며 상황에 따라 이를 조절하거나 변경할 수 있다.
예를 들어 특정 영역에 대응하는 컨텐츠 카테고리들을 선별하는 예는 다음과 같다.
이 중 사용자가 조금 더 정확한 컨텐츠 카테고리를 제공하기 위해서 이 도면과 같이 레벨 차이 값(level_gap)의 백분위 값을 이용할 수 있다. 레벨 차이 값(level_gap)의 분포 중 백분위로 0.9 ~ 1.0 (백분위 90~100%)범위 정도의 레벨 차이 값(level_gap)을 가지는 컨텐츠 카테고리들은 사용자에게 제공할 카테고리의 범위에 있을 수도 있고 아닐 수도 있다. 따라서 이들의 컨텐츠 카테고리들은 이들 중 조금 더 정확한 컨텐츠 카테고리를 선별하는 과정을 거치도록 할 수 있다.
인터넷 사이트의 각 카테고리의 성숙도는 위의 도면에서 예시한 바와 같다. 여기서는 성숙도 계수 0.5를 이용한 예를 사용하였다. 따라서 각 서브 콘텐츠 카테고리 별 자식 카테고리의 수와 인터넷 사이트 수 또는 페이지 수를 이용하면 성숙도(maturity)를 산출할 수 있다.
이 예에서, 검토 영역에 있는 특정 카테고리(cat_i)를 선택할지 또는 제외할지를 검토하는 과정은 다음과 같다. 카테고리(cat_i)의 성숙도에 위치함수(d0/di)를 곱한 최종값이 특정 임계값보다 높게 나오면 카테고리(cat_i)를 선택하는 방식이다. 여기서 특정 임계값은 백분위수 0.4~0.9 범위에 있는 카테고리들의 성숙도의 산술 평균값으로 계산할 수 있다. 또한 특정 카테고리(cat_i)의 성숙도에 곱하는 위치함수는 d0/di 인데, d0는 백분위수 0.5와 0.9 위치에 있는 두 카테고리의 레벨 차이 값(level_gap)의 차이의 절대값이며, di 는 백분위수 0.5와 카테고리(cat_i)의 레벨 차이 값(level_gap)의 차이의 절대값을 나타낸다.
그리고 최종 곱의 값이 특정 임계 값을 넘으면 사용자에게 제공할 수 있는 컨텐츠의 카테고리(cat_i)로 선별할 수 있다.
이와 같이 레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보를 이용하면 추출된 컨텐츠 카테고리들 중 사용자에게 제공할 컨텐츠 카테고리를 선별할 수 있다.
위에서 예시한 바와 같이 위키피디아와 같이 특정 컨텐츠를 가지는 인터넷 사이트를 기초로 그 컨텐츠와 관련된 입력 데이터를 키워드로 입력하면 위 실시 예에 따라 상기 특정 컨텐츠의 컨텐츠 카테고리를 자동적으로 얻을 수 있다. 만약 컨텐츠가 기술분야라고 한다면 특정 기술 분야의 하위 기술 분야가 자동적으로 추출된 정보를 얻을 수 있다.
위에 개시된 실시예를 통해 레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보를 이용하면 제공되는 컨텐츠 카테고리를 선별하거나 노이즈를 제거하여 사용자에게 제공할 수 있다.
도 10은 도 6에서 제공한 결과와 양식은 동일하지만 키워드를 상대적으로 더 많이 입력하여 도출한 결과이다.
레벨 차이 값(level_gap)과 성숙도(maturity)의 통계정보에 따라 검색된 결과로부터 컨텐츠 카테고리를 선별할 수도 있고(도면 상에서 selected, unselected로 표시), 도 6 또는 도 10과 같이 키워드의 수들을 달리하여 사용자에게 제공할 수도 있다.
따라서, 개시한 실시 예에 따르면, 컨텐츠 또는 기술의 내용을 중심으로 컨텐츠 카테고리 또는 기술 분야를 자동 추출할 수 있다. 그리고 본 실시 예에 따르면, 인터넷 사이트와 같이 특정 사이트의 컨텐츠가 주어진 경우 이로부터 컨텐츠 카테고리나 기술분류를 시스템적으로 얻을 수 있다. 그리고, 개시한 실시 예에 따르면 R&D 투자 모델에 적용될 경우 컨텐츠의 데이터를 기반으로 투자 등을 결정할 수 있는 세부 분야 등을 자동적으로 추출할 수 있다.
100: 입력부
200: 정보처리부
300: 정보제공부
200: 정보처리부
300: 정보제공부
Claims (11)
- 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠에 관련된 키워드들을 입력데이터로 입력받는 단계;
상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계,
여기서, 상기 적어도 하나의 컨텐츠 카테고리들은, 상기 인터넷 사이트와, 상기 인터넷 사이트에 링크 연결된 하위 인터넷 사이트들의 거리(distance)를 이용하여 추출되고,
상기 거리(distance)는, 제 1 인터넷 사이트의 링크 연결된 제 1 서브 인터넷 사이트들과, 제 2 인터넷 사이트의 링크 연결된 제 2 서브 인터넷 사이트들 중 공통된 컨텐츠를 가지는 인터넷 사이트를 이용해 산출되는 레벨 차이 값(level gap)을 이용하여 산출되고; 및
상기 추출된 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하는 단계;를 포함하는, 인터넷 사이트 정보를 이용한 정보처리방법. - 삭제
- 삭제
- 삭제
- 제 1항에 있어서,
상기 적어도 하나의 컨텐츠 카테고리들을 추출하는 단계는,
상기 인터넷 사이트의 컨텐츠에 포함되는 컨텐츠 카테고리의 수 및 상기 컨텐츠 카테고리의 수에 대응되는 인터넷 사이트들의 수를 이용하여 정의되는 성숙도 지수에 기초해 추출되는, 정보처리방법. - 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠 에 관련된 키워드들을 입력데이터로 입력받는 입력부;
상기 입력부에 입력된 상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 정보처리부,
여기서, 상기 정보처리부는 상기 인터넷 사이트와, 상기 인터넷 사이트에 링크 연결된 하위 인터넷 사이트들의 거리(distance)를 이용하여 상기 적어도 하나의 서브 컨텐츠 카테고리들을 추출하고,
상기 거리(distance)는, 제 1 인터넷 사이트의 링크 연결된 제 1 서브 인터넷 사이트들과, 제 2 인터넷 사이트의 링크 연결된 제 2 서브 인터넷 사이트들 중 공통된 컨텐츠를 가지는 인터넷 사이트를 이용해 산출되는 레벨 차이 값(level gap)을 이용하여 산출되는; 및
상기 정보처리부가 추출한 상기 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하는 정보제공부;를 포함하는, 인터넷 사이트 정보를 이용한 정보처리장치. - 삭제
- 삭제
- 삭제
- 제 6항에 있어서,
상기 정보처리부는,
상기 인터넷 사이트의 컨텐츠에 포함되는 컨텐츠 카테고리의 수 및 상기 컨텐츠 카테고리의 수에 대응되는 인터넷 사이트들의 수를 이용하여 정의되는 성숙도 지수에 기초해 상기 적어도 하나의 서브 컨텐츠 카테고리들을 추출하는, 정보처리장치. - 인터넷 사이트에 포함된 정보를 기반으로 상기 인터넷 사이트의 컨텐츠 에 관련된 키워드들을 입력데이터로 입력받는 제 1 프로세스;
상기 입력데이터를 이용하여 상기 컨텐츠와 관련된 적어도 하나의 컨텐츠 카테고리들을 추출하는 제 2 프로세스,
여기서, 상기 제 2 프로세스는 상기 인터넷 사이트와, 상기 인터넷 사이트에 링크 연결된 하위 인터넷 사이트들의 거리(distance)를 이용하여 상기 적어도 하나의 서브 컨텐츠 카테고리들을 추출하고,
상기 거리(distance)는, 제 1 인터넷 사이트의 링크 연결된 제 1 서브 인터넷 사이트들과, 제 2 인터넷 사이트의 링크 연결된 제 2 서브 인터넷 사이트들 중 공통된 컨텐츠를 가지는 인터넷 사이트를 이용해 산출되는 레벨 차이 값(level gap)을 이용하여 산출되는; 및
상기 추출된 적어도 하나의 컨텐츠 카테고리들을 사용자에게 제공하도록 하는 제 3 프로세스를 포함하는 프로세스들을 수행하는 프로그램을 저장하는 저장매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190155515A KR102279490B1 (ko) | 2019-11-28 | 2019-11-28 | 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190155515A KR102279490B1 (ko) | 2019-11-28 | 2019-11-28 | 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210066368A KR20210066368A (ko) | 2021-06-07 |
KR102279490B1 true KR102279490B1 (ko) | 2021-07-21 |
Family
ID=76374827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190155515A KR102279490B1 (ko) | 2019-11-28 | 2019-11-28 | 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102279490B1 (ko) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170067445A (ko) * | 2015-12-08 | 2017-06-16 | 주식회사 애드오피 | 키워드 기반 광고 컨텐츠 제공 방법 및 이를 이용한 광고 컨텐츠 제공 장치 |
-
2019
- 2019-11-28 KR KR1020190155515A patent/KR102279490B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20210066368A (ko) | 2021-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
Alexa et al. | Improved scoring of functional groups from gene expression data by decorrelating GO graph structure | |
US8280892B2 (en) | Selecting tags for a document by analyzing paragraphs of the document | |
US7689615B2 (en) | Ranking results using multiple nested ranking | |
US9081852B2 (en) | Recommending terms to specify ontology space | |
JP2019507444A (ja) | 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム | |
US20090204609A1 (en) | Determining Words Related To A Given Set Of Words | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
CN102214232A (zh) | 一种文本数据相似度的计算方法及装置 | |
CN108154198A (zh) | 知识库实体归一方法、系统、终端和计算机可读存储介质 | |
US20200175052A1 (en) | Classification of electronic documents | |
JP2005501321A (ja) | ドキュメントを自動的にインデックスする方法 | |
CN106815265A (zh) | 裁判文书的搜索方法及装置 | |
KR102279490B1 (ko) | 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체 | |
US11922326B2 (en) | Data management suggestions from knowledge graph actions | |
CN111522945A (zh) | 一种基于卡方检验的诗词风格分析方法 | |
CN116681382A (zh) | 物料清单的数据抓取方法、系统以及可读存储介质 | |
Tumuluru et al. | A survey on identification of protein complexes in protein–protein interaction data: Methods and evaluation | |
KR20070060993A (ko) | 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템 | |
CN110727767B (zh) | 一种扩展文本样本的方法及系统 | |
CN112765305A (zh) | 作者的兴趣主题的分析方法、装置、电子设备及存储介质 | |
CN112015911A (zh) | 一种海量知识图谱检索的方法 | |
EP2090992A2 (en) | Determining words related to a given set of words | |
CN110909533B (zh) | 资源主题判定方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |