KR20160033563A - 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 - Google Patents
데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 Download PDFInfo
- Publication number
- KR20160033563A KR20160033563A KR1020140138206A KR20140138206A KR20160033563A KR 20160033563 A KR20160033563 A KR 20160033563A KR 1020140138206 A KR1020140138206 A KR 1020140138206A KR 20140138206 A KR20140138206 A KR 20140138206A KR 20160033563 A KR20160033563 A KR 20160033563A
- Authority
- KR
- South Korea
- Prior art keywords
- web
- document
- association
- word
- degree
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000010276 construction Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
웹 사이트로부터 수집한 웹 문서 및 사용자로부터 수신한 문서에서 단어를 추출하고, 추출한 단어를 기반으로 하여 웹 사이트로부터 수집한 복수 개의 웹 문서간의 연관도 및 웹 사이트로부터 수집한 웹 문서와 사용자로부터 수신한 문서간의 연관도를 산출하고, 산출한 연관도를 대응하는 웹 사이트로부터 수집한 웹 문서 및 사용자로부터 수신한 문서에 색인하여 저장한다.
Description
도 2 는 도 1 에 도시된 단어 분석기의 개략적인 구성을 설명하기 위한 도면이다.
도 3 은 도 1 에 도시된 연관성 분석기의 개략적인 구성을 설명하기 위한 도면이다.
도 4 는 본 발명의 일 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
도 5 는 본 발명의 다른 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
도 6 은 본 발명의 또 다른 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
100: 통신부
200: 제어부
210: 단어 추출기
220: 연관성 분석기
300: 메모리부
Claims (19)
- 웹 사이트에서 복수 개의 웹 문서를 수집하고,
상기 복수 개의 웹 문서에서 단어를 추출하여 단어 리스트를 생성하고,
상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고,
상기 산출한 연관도를 상기 복수 개의 웹 문서에 색인하여 저장하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 1 항에 있어서,
상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
상기 복수 개의 웹 문서 중 상기 단어 리스트에 포함된 단어를 포함하는 웹 문서를 검출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수를 검출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 2 항에 있어서,
상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수가 많을수록 상기 복수 개의 웹 문서간의 연관도가 높은 것으로 산출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수가 적을수록 상기 복수 개의 웹 문서간의 연관도가 낮은 것으로 산출하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 1 항에 있어서,
상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
기저장된 유사단어 데이터로부터 상기 단어 리스트에 포함된 단어와 유사한 의미를 갖는 유사단어를 검출하고, 상기 단어 리스트에 포함된 단어와 상기 검출한 유사단어 간의 유사도를 검출하고, 상기 복수 개의 웹 문서 중 상기 검출한 유사단어를 포함하는 웹 문서를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수 및 상기 검출한 유사단어 간의 유사도에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 1 항에 있어서,
상기 단어 리스트를 생성하는 것은,
상기 웹 문서를 문장 단위로 분리하고, 상기 분리한 문장의 형태소를 분석하여 상기 분리한 문장에 있는 단어를 추출하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 5 항에 있어서,
상기 단어 리스트를 생성하는 것은,
상기 웹 문서의 각 문장에서 추출한 단어의 빈도수를 산출하고, 상기 웹 문서의 각 문장에서 추출한 단어의 빈도수가 높은 순대로 정렬하여 상기 단어 리스트를 생성하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 1 항에 있어서,
상기 데이터베이스에 저장된 정보를 고속으로 검색할 수 있도록 상기 단어 리스트에 포함된 단어에 대하여 인덱스를 생성하여 저장하는 것을 더 포함하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 1 항에 있어서,
사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 웹 문서가 함께 탐색되도록 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것을 더 포함하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 제 8 항에 있어서,
상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것은,
상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 웹 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서를 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑하는 웹 자료 검색을 위한 데이터베이스 구축 방법. - 웹 사이트에서 복수 개의 웹 문서를 수집하여 상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고,
사용자로부터 업데이트할 문서를 수신하고, 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 산출하고,
상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서에 색인하여 저장하는 데이터베이스 구축 방법. - 제 10 항에 있어서,
상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
상기 복수 개의 웹 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 복수 개의 웹 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서간의 상기 추출한 단어의 중복지수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 데이터베이스 구축 방법. - 제 11 항에 있어서,
상기 복수 개의 웹 문서간의 상기 추출한 단어의 중복지수에 따라 상기 복수 개의 웹 문서들간의 연관도를 산출하는 것은,
상기 복수 개의 웹 문서간에 동일하거나 연관된 단어가 포함된 횟수를 검출하고, 상기 동일하거나 연관된 단어가 포함된 횟수가 많을수록 상기 복수 개의 웹 문서간의 연관도를 높은 것으로 산출하는 데이터베이스 구축 방법. - 제 12 항에 있어서,
상기 복수 개의 웹 문서간에 연관된 단어가 포함된 횟수를 검출하는 것은,
기저장된 유사단어 데이터로부터 상기 복수 개의 웹 문서에서 추출한 단어와 유사한 의미를 갖는 유사단어를 추출하고, 상기 복수 개의 웹 문서로부터 상기 유사단어가 포함된 횟수를 검출하는 데이터베이스 구축 방법. - 제 10 항에 있어서,
상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석하는 것은,
상기 사용자로부터 수신한 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 사용자로부터 수신한 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서에 포함된 단어와 상기 사용자로부터 수신한 문서로부터 추출한 단어의 중복지수에 따라 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석하는 데이터베이스 구축 방법. - 제 10 항에 있어서,
사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 문서가 함께 탐색되도록 상기 복수 개의 웹 문서들간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서들간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것을 더 포함하는 데이터베이스 구축 방법. - 제 15 항에 있어서,
상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것은,
상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑하는 데이터베이스 구축 방법. - 제 10 항에 있어서,
상기 사용자로부터 특정 단어를 수신하면 상기 특정 단어가 포함된 웹 문서를 검출하고, 상기 복수 개의 웹 문서간의 연관도에 따라 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서를 검출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 추출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 기반으로 사용자 단말에 저장되어 있는 문서와의 연관도를 산출하고, 상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것을 더 포함하는 데이터베이스 구축 방법. - 제 17 항에 있어서,
상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것은,
상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상인지 여부를 검출하고,
상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상이면 상기 사용자에게 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장할 것인지를 묻는 알림 메시지를 출력하고,
상기 알림 메시지에 응답하여 상기 사용자로부터 저장 요청신호를 수신하면 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 데이터베이스 구축 방법. - 제 1 항 내지 제 18 항 중 어느 하나의 항에 따라 데이터베이스를 구축하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20140124131 | 2014-09-18 | ||
KR1020140124131 | 2014-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160033563A true KR20160033563A (ko) | 2016-03-28 |
KR102243286B1 KR102243286B1 (ko) | 2021-04-22 |
Family
ID=57008253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140138206A KR102243286B1 (ko) | 2014-09-18 | 2014-10-14 | 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102243286B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190108472A (ko) * | 2018-03-14 | 2019-09-24 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
KR20190108468A (ko) * | 2018-10-19 | 2019-09-24 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153381A (ja) * | 1997-08-01 | 1999-02-26 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JP2002032411A (ja) * | 2000-07-18 | 2002-01-31 | Fuji Xerox Co Ltd | 関連文書検索方法および装置 |
KR20060025726A (ko) | 2004-09-17 | 2006-03-22 | 주식회사 코난테크놀로지 | 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템 |
KR20080048149A (ko) * | 2006-11-28 | 2008-06-02 | 주식회사 오피엠에스 | 카테고리 광고 시스템 및 방법 |
KR20090093153A (ko) * | 2008-02-28 | 2009-09-02 | 엔에이치엔(주) | 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및시스템 |
KR20090124301A (ko) | 2008-05-29 | 2009-12-03 | (주)쓰리소프트 | 검색어 연관 네트워크 서비스 방법 |
KR101130535B1 (ko) * | 2004-04-30 | 2012-04-12 | 마이크로소프트 코포레이션 | 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템 |
JP2012194690A (ja) * | 2011-03-15 | 2012-10-11 | Ntt Comware Corp | 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム |
-
2014
- 2014-10-14 KR KR1020140138206A patent/KR102243286B1/ko active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153381A (ja) * | 1997-08-01 | 1999-02-26 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JP2002032411A (ja) * | 2000-07-18 | 2002-01-31 | Fuji Xerox Co Ltd | 関連文書検索方法および装置 |
KR101130535B1 (ko) * | 2004-04-30 | 2012-04-12 | 마이크로소프트 코포레이션 | 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템 |
KR20060025726A (ko) | 2004-09-17 | 2006-03-22 | 주식회사 코난테크놀로지 | 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템 |
KR20080048149A (ko) * | 2006-11-28 | 2008-06-02 | 주식회사 오피엠에스 | 카테고리 광고 시스템 및 방법 |
KR20090093153A (ko) * | 2008-02-28 | 2009-09-02 | 엔에이치엔(주) | 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및시스템 |
KR20090124301A (ko) | 2008-05-29 | 2009-12-03 | (주)쓰리소프트 | 검색어 연관 네트워크 서비스 방법 |
JP2012194690A (ja) * | 2011-03-15 | 2012-10-11 | Ntt Comware Corp | 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190108472A (ko) * | 2018-03-14 | 2019-09-24 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
KR20190108468A (ko) * | 2018-10-19 | 2019-09-24 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
WO2020111374A1 (ko) * | 2018-11-26 | 2020-06-04 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102243286B1 (ko) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8510322B2 (en) | Enriched search features based in part on discovering people-centric search intent | |
US10110658B2 (en) | Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability | |
US9239875B2 (en) | Method for disambiguated features in unstructured text | |
WO2018189589A2 (en) | Systems and methods for document processing using machine learning | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
US20150154193A1 (en) | System and method for extracting facts from unstructured text | |
US20160147739A1 (en) | Apparatus and method for updating language analysis result | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US20150154306A1 (en) | Method for searching related entities through entity co-occurrence | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
EP2831764A1 (en) | Named entity extraction from a block of text | |
US9251270B2 (en) | Grouping search results into a profile page | |
US9165058B2 (en) | Apparatus and method for searching for personalized content based on user's comment | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
US20150206101A1 (en) | System for determining infringement of copyright based on the text reference point and method thereof | |
KR20090015434A (ko) | 사용자 중심 정보탐색 방법 및 시스템 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
JP2010262638A (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
KR102243286B1 (ko) | 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 | |
JP2010055164A (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
US10223529B2 (en) | Indexing apparatus and method for search of security monitoring data | |
JP5613536B2 (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
KR20160034471A (ko) | 문자메시지와 소셜네트워크 서비스를 활용한 지역별 실시간 핫이슈 추출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20141014 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20190415 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20141014 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200723 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210119 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210416 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210416 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |