KR20190140534A - 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 - Google Patents
컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 Download PDFInfo
- Publication number
- KR20190140534A KR20190140534A KR1020180062761A KR20180062761A KR20190140534A KR 20190140534 A KR20190140534 A KR 20190140534A KR 1020180062761 A KR1020180062761 A KR 1020180062761A KR 20180062761 A KR20180062761 A KR 20180062761A KR 20190140534 A KR20190140534 A KR 20190140534A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- relationship
- extracting
- unit
- language
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G06F17/289—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
Abstract
본 발명은 컨셉넷의 API(Application Programming Interface)에서 제공하는 관계정보를 활용하여 타국어에 관계된 빅데이터를 분석하는 컨셉넷을 이용한 타국어 관계 분석 시스템 및 방법에 관한 것으로서, 소정 언어의 주제어가 입력되면 상기 주제어로부터 네트웍에 접속하여 키워드를 추출하는 전처리부; 상기 전처리부로부터 입력된 소정 언어의 주제어 및 키워드를 컨셉넷의 언어로 번역시키는 제1 번역부; 상기 번역부로부터 번역된 상기 소정 언어의 주제어와 전처리부에 의해 추출된 키워드를 이용하여 상기 주제어와 연결된 카테고리를 추출하고 관계를 추출하는 추출부; 상기 주제어와 키워드 및 상기 추출부에 의해 추출된 카테고리 및 관계를 상기 소정 언어로 번역하는 제2 번역부; 상기 주제어, 키워드 및 관계를 합산하고 네트웍에 접속하여 상기 합산된 주제어, 키워드 및 관계와 관련된 데이터를 수집하는 데이터수집부; 및 소정 언어의 상기 주제어를 입력하고 상기 데이터수집부에 수집된 데이터를 출력하는 입출력부;를 포함하여 구성되어 타국어를 이용해서도 타국 언어로 된 컨셉넷을 할용할 수 있도록 한 효과가 있다.
Description
본 발명은 컨셉넷(ConceptNet)을 이용한 소정 언어의 관계 분석 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 컨셉넷의 API(Application Programming Interface)에서 제공하는 관계정보를 활용하여 타국어에 관계된 빅데이터를 분석하는 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법에 관한 것이다.
컨셉넷은 단어(Concept)간 관계분석(Relation) 매커니즘(Mechanism)을 통해 사용자에게 특정 단어와 관련된 관계정보를 제공해주는 시스템이다. 또한, 컨셉넷은 'WordNet' 기반으로 만들어진 Open Mind Common Sense(OMCS) 프로젝트이다. 현재 컨셉넷은 버전5까지 발전해왔으며, 정보량을 확장해오고 있다. 또한, 'Word2vec' 연구분야까지 확장을 해오고 있다.
하지만, 컨셉넷(ConceptNet)은 한계점을 지니고 있다. 다국어로 지원하고 있지만, 정보의 대다수가 영어로 편중되어 있다는 사실이다. 이로 인해 각 나라 버전의 컨셉넷 구축에 관련 연구가 많이 이루어지고 있다. 일본어 컨셉넷인 'A Japanese Natural Language Toolset Implementation for ConceptNet'가 그 예이다.
ConceptNet은 주요 언어들인 영어, 프랑스어, 일본어 등 10개의 언어들에 대해서는 매우 많은 양의 데이터를 갖고 있다. 아래의 표들은 각각 주요 언어와 이외 언어들에 대해 ConceptNet이 갖고 있는 단어 개수를 보여준다. 10개의 주요 언어와 68개의 다른 언어들 중 5개의 언어를 뽑아 단어 개수를 확인했다. 주요 언어와 이외의 언어들은 단어 개수도 많이 차이가 날 뿐만 아니라 주요 언어에 대해서는 API를 제공해서 쉽게 활용이 가능하지만, 이외의 언어들은 API를 제공하지 않기 때문에 별도로 데이터 셋을 다운로드 받아 필요 방법에 따라 활용해야 한다는 한계점이 있다.
언어 | 단어 개수 | 언어 | 단어 개수 |
English | 1,803,873 | Czech | 129,183 |
French | 3,023,144 | Filipino | 17,620 |
Italian | 1,078,629 | Korean | 47,268 |
Japanese | 363,663 | Slovak | 29,768 |
Chinese | 242,746 | Turkish | 65,892 |
또한, 컨셉넷은 일반적인 관계를 나타내주는 그래프로 기존 단어들 사이의 관계는 매우 정확하게 표현할 수 있다. 하지만 최신 트렌드를 반영할 수 있는 최신의 데이터가 부족하기 때문에 트렌드가 반영되지 않는다는 한계점이 있다. 특히 각 나라의 문화적인 트렌드를 반영하지 못하기 때문에 세계적으로 통용되는 일반적인 단어 관계를 분석할 때는 컨셉넷이 큰 강점을 갖고 있지만 특정 나라에서 다르게 사용되는 관계까지는 분석하지 못한다는 문제점이 있다.
예를 들어, 한국에서 '아이유(IU, IYou)'라는 키워드를 컨셉넷에 입력하면 아무런 결과도 얻을 수가 없다. 한국에서 '아이유'를 검색하는 경우 '아이유는 가수다', '아이유는 밤편지를 불렀다' 등의 관계를 알 수 있다. 다시 말해 컨셉넷은 일반적 관계 그래프는 정확한 데이터를 갖고 있지만, 최신 트렌드나 특정 국가의 사회적, 문화적 트렌드까지는 반영되지 못한다는 문제점이 있다.
따라서 본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 컨셉넷의 API(Application Programming Interface)에서 제공하는 관계정보를 활용하여 타국어에 관계된 빅데이터를 분석하는 컨셉넷을 이용한 타국어 관계 분석 시스템 및 방법을 제공함으로써 타국어를 이용해서도 몇몇 언어로만 구성된 컨셉넷을 할용할 수 있도록 한 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법을 제공하기 위한 것이다.
상술한 목적을 달성하기 위한 컨셉넷을 이용한 타국어 관계 분석 시스템은, 소정 언어의 주제어가 입력되면 상기 소정 언어의 주제어로부터 네트웍에 접속하여 키워드를 추출하는 전처리부; 상기 소정 언어의 주제어와 연결된 카테고리를 추출하고 관계를 추출하는 추출부; 상기 주제어, 키워드, 카테고리 및 관계를 합산하거나 조합하고 네트웍에 접속하여 상기 합산된 주제어, 키워드, 가테고리 및 관계 데이터와 관련된 데이터를 수집하는 데이터수집부; 및 소정 언어의 상기 주제어를 입력하고 상기 데이터수집부에 수집된 데이터를 출력하는 입출력부;를 포함하여 구성된다.
상기 전처리부는, 상기 주제어와 관련된 뉴스를 크롤링하는 뉴스크롤링부; 및 상기 뉴스크롤링부에 의해 크롤링된 뉴스들로부터 키워드를 추출하는 키워드추출부;를 포함하여 구성될 수 있다.
상기 추출부는, 상기 주제어와 상기 키워드를 이용하여 네트웍으로 연결된 인터넷사전의 API로부터 카테고리를 추출하는 카테고리 추출부; 및 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 관계추출부;를 포함하여 구성될 수 있다.
상기 관계추출부는, 상기 주제어, 키워드 및 카테고리를 상기 컨셉넷에 통용되는 언어로 번역하는 제1 번역부; 상기 제1 번역부에 의해 번역된 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단어관계추출부; 상기 추출부에 의해 추출된 관계를 상기 소정의 언어로 번역하는 제2 번역부;를 포함하여 구성될 수 있다.
상기 관계추출부는, 상기 주제어, 키워드 및 카테고리에 대응하는 "이다(IsA)", "관계다(RelatedTo)", "로 만든(MadeOf)", "갖는다(HasA)", "부분(PartOf)"에 대응하는 단어들을 검색하는 것일 수 있다.
상기 데이터수집부는,
주제어, 키워드, 카테고리 및 관계를 결합하는 결합부; 네트웍에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색하는 검색부; 및 상기 주제어, 키워드, 카테고리 및 관계에 의해 검색된 데이터를 저장하는 데이터베이스;를 포함하여 구성될 수 있다.
상술한 목적을 달성하기 위한 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법은, 소정 언어의 주제어를 입력받는 단계; 네트웍에 접속하여 상기 주제어에 대응하는 키워드를 추출하는 단계; 상기 소정 언어의 주제어와 전처리부에 의해 추출된 키워드를 이용하여 상기 주제어에 대응하는 카테고리를 추출하고 관계를 추출하는 단계; 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계; 상기 주제어, 키워드, 카테고리 및 관계를 합산하거나 조합하는 단계; 네트웍에 접속하여 상기 합산되거나 조합된 주제어, 키워드, 카테고리 및 관계 데이터를 수집하는 단계; 및 상기 합산된 주제어, 키워드 및 관계와 관련된 데이터를 출력하는 단계;를 포함하여 구성된다.
상기 키워드를 추출하는 단계는,
상기 주제어와 관련된 뉴스를 크롤링하는 단계;
상기 크롤링된 뉴스들로부터 키워드를 추출하는 단계;를 포함하여 구성될 수 있다.
상기 카테고리를 추출하고 관계를 추출하는 단계는,
상기 주제어와 상기 키워드를 이용하여 네트웍으로 연결된 인터넷사전의 API로부터 카테고리를 추출하는 단계; 및
상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계;를 포함하여 구성될 수 있다.
관계를 추출하는 단계는,
상기 주제어, 키워드 및 카테고리를 상기 컨셉넷에 통용되는 언어로 번역하는 제1 번역단계;
상기 제1 번역단계에서 번역된 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계;
상기 추출하는 단계에서 추출된 관계를 상기 소정의 언어로 번역하는 제2 번역단계;를 포함하여 구성될 수 있다.
상기 관계를 추출하는 단계는 "이다(IsA)", "관계다(RelatedTo)", "로 만든(MadeOf)", "갖는다(HasA)", "부분(PartOf)"에 대응하는 단어들을 검색하는 것일 수 있다.
상기 데이터를 수집하는 단계는,
네트웍에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색하는 단계; 및
상기 주제어, 키워드, 카테고리 및 관계에 의해 검색된 데이터를 저장하는 단계;를 포함하여 구성될 수 있다.
따라서 본 발명의 컨셉넷을 이용한 소정 언어 관계 분석 시스템 및 방법은 컨셉넷의 API(Application Programming Interface)에서 제공하는 관계정보를 활용하여 소정 언어에 관계된 빅데이터를 분석하는 컨셉넷을 이용한 타국어 관계 분석 시스템 및 방법을 제공함으로써 타국어를 이용해서도 소정 언어로 된 컨셉넷을 할용할 수 있도록 한 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 컨셉넷을 이용한 타국어 관계 분석 시스템의 구성을 나타낸 블록 구성도.
도 2는 본 발명의 일 실시예에 따른 도 1의 전처리부의 구성을 나타낸 블록 구성도.
도 3은 본 발명의 일 실시예에 따른 도 1의 추출부의 구성을 나타낸 블록 구성도.
도 4는 본 발명의 일 실시예에 따른 도 3의 관계추출부의 구성을 보다 상세하게 나타낸 블록 구성도.
도 5는 본 발명의 일 실시예에 따른 데이터 관계를 컨셉넷을 이용하여 추출한 일 예를 나타낸 표.
도 6은 본 발명의 일 실시예에 따른 도 1의 데이터수집부의 구성을 나타낸 블록 구성도.
도 7은 본 발명의 일 실시예에 따른 컨셉넷을 이용한 소정 언어의 언어관계를 분석하는 과정을 나타낸 순서도.
도 8은 본 발명의 일 실시예에 따른 도 7의 키워드를 추출하는 단계를 나타낸 순서도.
도 9는 본 발명의 일 실시예에 따른 도 7의 상기 카테고리를 추출하고 관계를 추출하는 단계를 나타낸 순서도.
도 10은 본 발명의 일 실시예에 따른 도 9의 관계를 추출하는 단계를 나타낸 순서도.
도 11은 본 발명의 일 실시예에 따른 도 7의 데이터를 수집하는 단계를 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 도 1의 전처리부의 구성을 나타낸 블록 구성도.
도 3은 본 발명의 일 실시예에 따른 도 1의 추출부의 구성을 나타낸 블록 구성도.
도 4는 본 발명의 일 실시예에 따른 도 3의 관계추출부의 구성을 보다 상세하게 나타낸 블록 구성도.
도 5는 본 발명의 일 실시예에 따른 데이터 관계를 컨셉넷을 이용하여 추출한 일 예를 나타낸 표.
도 6은 본 발명의 일 실시예에 따른 도 1의 데이터수집부의 구성을 나타낸 블록 구성도.
도 7은 본 발명의 일 실시예에 따른 컨셉넷을 이용한 소정 언어의 언어관계를 분석하는 과정을 나타낸 순서도.
도 8은 본 발명의 일 실시예에 따른 도 7의 키워드를 추출하는 단계를 나타낸 순서도.
도 9는 본 발명의 일 실시예에 따른 도 7의 상기 카테고리를 추출하고 관계를 추출하는 단계를 나타낸 순서도.
도 10은 본 발명의 일 실시예에 따른 도 9의 관계를 추출하는 단계를 나타낸 순서도.
도 11은 본 발명의 일 실시예에 따른 도 7의 데이터를 수집하는 단계를 나타낸 순서도.
이하, 본 발명의 실시예를 나타내는 첨부 도면을 참조하여 본 발명을 더욱 상세히 설명한다.
본 발명의 컨셉넷을 이용한 소정 언어 관계 분석 시스템은 전처리부(100), 추출부(200), 데이터수집부(300) 및 입출력부(400)를 포함하여 구성된다.
전처리부(100)는 소정 언어로 주제어가 입력되면 네트웍에 접속하여 상기 주제어로부터 키워드를 추출한다. 여기서, 네트웍(10)은 전용망에 연결된 특정 서버일 수 있으며, 또는 인터넷망과 같은 광역 네트웍일 수 있다. 한편, 키워드의 추출은 네트웍(10)을 통해 뉴스서버(20)에 연결하여 뉴스서버(20)에 있는 주제어를 검색한다. 뉴스서버(20)를 통해 주제어에 대응하는 뉴스가 없는 경우에는 검색이 되지 않을 수도 있다. 검색이 되지 않는 경우에는 키워드를 추출하지 않고, 후술하는 카테고리와 관계만을 추출하여 이용할 수 있다. 추출부(200)는 소정 언어 형태로 입력된 주제어와 전처리부(100)에 의해 추출된 키워드를 이용하여 상기 주제어와 연결된 카테고리와 관계를 추출한다. 추출부(200)는 카테고리의 추출과 관계를 추출한다. 카테고리의 추출은 인터넷사전(30)의 API를 이용하여 검색할 수 있다. 예컨대, 추출부(200)는 Wiki Pedia의 API를 이용할 수 있다. 또한, 추출부(200)에서 수행하는 관계 추출은 컨셉넷(40)을 이용하여 추출할 수 있다.
데이터수집부(300)는 주제어, 키워드, 카테고리 및 관계를 합산하거나 조합하고 네트웍에 접속하여 상기 합산되거나 조합된 주제어, 키워드, 카테고리 및 관계 데이터를 이용하여 데이터를 검색하고 수집한다. 데이터수집부(300)가 수행하는 데이터 수집은 인터넷, SNS(Social Network Service)를 이용하여 검색할 수 있으며, 검색된 내용을 저장한다.
입출력부(400)는 검색을 원하는 사용자로부터 주제어를 입력받고, 데이터수집부(300)에 수집된 데이터를 출력한다.
한편 네트웍(10)은 넓은 의미의 광역 인터넷일 수 있으며, 광역망 및 전용망을 포함하는 개념일 수 있다. 네트웍(10)은 워낙 방대하여 매우 세분화된 구분을 할 수 있지만, 본 발명에서는 네트웍(10)은 뉴스서버(20), 인터넷사전(30) 및 컨셉넷(40)을 포함하는 개념일 수 있다.
도 2는 본 발명의 일 실시예에 따른 도 1의 전처리부의 구성을 나타낸 블록 구성도이다.
도 2를 참조하면, 전처리부(100)는 뉴스크롤링부(110) 및 키워드추출부(120)를 포함하여 구성된다.
뉴스크롤링부(110)는 검색을 원하는 사용자로부터 입력된 주제어와 관련된 뉴스를 크롤링한다. 뉴스크롤링부(110)가 검색하는 뉴스는 네이버뉴스 데이터, 다음 뉴스 데이터, 구글 뉴스 데이터 등과 같이 뉴스를 제공하는 포털의 뉴스서버(20)일 수 있다.
키워드추출부(120)는 뉴스크롤링부(110)에 의해 크롤링된 뉴스들로부터 키워드를 추출한다. 즉, 키워트추출부(120)는 컨셉넷에서 추출하지 못하는 이슈를 검색하는 것으로 이슈화된 키워드를 추출한다. 예컨대, 아이유가 주제어인 경우, 외국어로 설정되어 있는 컨셉넷은 "International Unit(국제단위)", "나와너" 또는 "내가 당신을"로 검색할 것이다. 그러나, 키워드추출부(120)에 의해 키워드가 추출되면, 아이유가 "나와너" 또는 "내가 당신을"과는 다른 신곡발표나 드라마, 방송출연과 관련된 키워드가 포함되어 추출될 것이다.
도 3은 본 발명의 일 실시예에 따른 도 1의 추출부의 구성을 나타낸 블록 구성도이다.
도 3을 참조하면, 추출부(200)는 카테고리 추출부(210) 및 관계추출부(220)를 포함하여 구성된다.
카테고리 추출부(210)는 상기 주제어와 상기 키워드를 이용하여 네트웍으로 연결된 인터넷사전(30)의 API로부터 카테고리를 추출한다. 특히 카테고리 추출부(210)는 전처리부(100)에 의해 추출된 키워드와 관련된 단어들과 주제어를 이용하여 Wiki pedia와 같은 인터넷사전(30)의 API를 검색하여 데이터 세트(set)를 구축할 수 있다.
관계추출부(220)는 상기 주제어, 키워드 및 카테고리를 컨셉넷(40)에 연결하여 관계를 추출한다. 관계를 추출하기 위하여 컨셉넷(40)을 활용하며 컨셉넷(40)에 관계를 보다 정확하게 추출하기 위하여 소정 언어 형태로 입력된 주제어와 추출된 키워드 및 카테고리를 해당 컨셉넷의 언어로 번역하여 사용하고 검색결과는 다시 소정 언어로 번역하여 사용한다. 관계추출부(220)의 보다 상세한 설명은 후술하는 도 4를 참조하여 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 도 3의 관계추출부의 구성을 보다 상세하게 나타낸 블록 구성도이다.
도 4를 참조하면, 관계추출부(220)는 제1 번역부(222), 단어관계추출부(224) 및 제2 번역부(226)를 포함하여 구성된다.
제1 번역부(222)는 주제어, 키워드 및 카테고리를 컨셉넷(40)에 통용되는 언어로 번역한다. 예컨대, 주제어, 키워드 및 카테고리가 한글로 되어 있고 컨셉넷의 언어가 영어인 경우면 한영 번역한다.
단어관계추출부(224)는 제1 번역부(222)에 의해 해당 컨셉넷의 언어로 번역된 주제어, 키워드 및 카테고리를 컨셉넷(40)에 연결하여 관계를 추출한다. 컨셉넷(40)을 이용한 관계의 추출에 대해서는 후술하는 도 5를 참조하여 보다 상세하게 설명하기로 한다.
제2 번역부(226)는 단어관계추출부(224)에 의해 추출된 관계를 한글로 번역한다. 예컨대, 해당 컨셉넷(40)의 언어가 영어인 경우면 영어로 추출된 관계를 영한 번역한다.
도 5는 본 발명의 일 실시예에 따른 데이터 관계를 컨셉넷을 이용하여 추출한 일 예를 나타낸 표이다.
도 5를 참조하면, 추출부(200)는, 상기 주제어, 키워드 및 카테고리에 대응하는 "이다(IsA)", "관계다(RelatedTo)", "로 만든(MadeOf)", "갖는다(HasA)", "부분(PartOf)"에 대응하는 단어들을 검색하는 것일 수 있다. 또한, 각각 검색된 관계들의 가중치를 계산한다. 표를 참조하면, 예컨대, 주제어가 '자동차'가 입력되면 주제어, 키워드 및 카테고리에 대응하는 단어들이 검색되고, 해당 검색된 언어들이 다시 해당 컨셉넷의 언어로 번역되어 입력되면 도 5의 표에서 나타낸 관계들과 가중치가 검색되고 다시 소정 언어로 번역되어 출력된다. 한편, 도 5의 표에는 "이다(IsA)", "갖는다(HasA)", "부분(PartOf)"만 표시되어 있다.
도 6은 본 발명의 일 실시예에 따른 도 1의 데이터수집부의 구성을 나타낸 블록 구성도이다.
도 6을 참조하면, 상기 데이터수집부(300)는, 결합부(310), 검색부(320) 및 데이터베이스(330)를 포함하여 구성된다.
결합부(310)는 주제어, 키워드, 카테고리 및 관계를 가산하거나 조합하여 검색어를 재결합한다.
검색부(320)는 네트웍에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색한다. 여기서의 검색은 크롤링과 인덱싱을 포함하는 검색을 의미하는 것일 수 있다.
데이터베이스(330)는 주제어, 키워드, 카테고리 및 관계의 합산하거나 조합하여 검색된 데이터를 저장한다. 데이터베이스(330)에 저장된 데이터는 이후 다양한 용도로 활용될 수 있다. 예컨대 빅데이터나 컨셉넷을 업데이트하는 용도 등으로 사용될 수 있다.
전술한 바와 같이 입출력부(400)는 데이터베이스(330)에 저장하는 데이터를 출력하여 주제어에 의해 검색된 결과를 출력한다.
도 7은 본 발명의 일 실시예에 따른 컨셉넷을 이용한 소정 언어의 관계를 분석하는 과정을 나타낸 순서도이다.
도 7을 참조하면, S202단계에서 사용자로부터 입출력부(400)는 사용자로부터 입력되는 주제어를 입력받는다.
S204단계에서 전처리부(100)는 네트웍(10)에 접속하여 상기 주제어에 대응하는 키워드를 추출한다. 특히 네트웍(10)에서도 뉴스서버(20)에 접속하여 키워드를 추출한다.
S206단계에서 추출부(200)는 전처리부(100)로부터 상기 소정 언어 형태로 입력된 주제어와 키워드를 수신받아 상기 주제어에 대응하는 카테고리와 관계를 추출한다.
S208단계에서 데이터수집부(300)는 추출부(200)로부터 주제어, 키워드, 카테고리 및 관계를 수신받아 합산하거나 조합한다.
S210단계에서 데이터수집부(300)는 네트웍(10)에 접속하여 상기 합산된 검색어, 키워드 및 관계 데이터를 수집한다. 데이터의 수집은 합산된 검색어, 키워드 및 관계 데이터를 이용하여 크롤링 및 인덱스 검색을 수행하는 것일 수 있다.
S212단계에서 입출력부(400)는 데이터수집부(300)로부터 수집된 데이터를 출력한다.
도 8은 본 발명의 일 실시예에 따른 도 7의 키워드를 추출하는 단계를 나타낸 순서도이다.
도 8을 참조하면, S302단계에서 주제어와 관련된 뉴스를 크롤링한다.
S304단계에서 전처리부(100)는 크롤링된 뉴스들로부터 키워드를 추출한다. 키워드의 추출과 크롤링은 전술한 바와 같이 뉴스서버(20)를 통하여 수행될 수 있다. 예컨대 전처리부(100)는 뉴스서버(20)들의 API를 크롤링하고 크롤링 결과를 검색하여 키워드를 추출할 수 있다. 뉴스서버(20)는 네이버 뉴스 서버, 다음 뉴스 서버 등과 같이 뉴스를 제공하는 서버의 해당 뉴스서버(20)의 API 또는 뉴스 전문을 검색하여 키워드를 크롤링할 수 있다.
도 9는 본 발명의 일 실시예에 따른 도 7의 상기 카테고리를 추출하고 관계를 추출하는 단계를 나타낸 순서도이다.
도 9를 참조하면, S402단계에서 추출부(200)는 주제어와 상기 키워드를 이용하여 네트웍(10)으로 연결된 인터넷사전(30)의 API로부터 카테고리를 추출한다. 인터넷사전(30)은 위키피디아, 네이버사전, 다음사전과 같은 인터넷사전을 포함할 수 있다.
S404단계에서 추출부(200)는 상기 주제어, 키워드 및 카테고리를 컨셉넷(40)에 연결하여 관계를 추출한다.
도 10은 본 발명의 일 실시예에 따른 도 8의 관계를 추출하는 단계를 나타낸 순서도이다.
도 10을 참조하면, S502단계에서 추출부(200)는 상기 한글의 주제어, 키워드 및 카테고리를 상기 컨셉넷(40)에 통용되는 언어로 번역한다.
S504단계에서 추출부(200)는 제1 번역단계에서 번역된 상기 주제어, 키워드 및 카테고리를 컨셉넷(40)에 연결하여 관계를 추출한다.
S506단계에서 추출부(200)는 S504단계에서 추출된 관계를 한글로 번역한다. 전술한 바와 같이 번역된 결과가 도 5처럼 나타날 수 있다. 즉, 관계과 주제어와의 가중치가 함께 표시될 수 있다.
도 11은 본 발명의 일 실시예에 따른 도 6의 데이터를 수집하는 단계를 나타낸 순서도이다.
도 11을 참조하면, S602단계에서 데이터수집부(300)는 네트웍(10)에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색한다. 여기서의 검색은 크롤링과 인덱싱을 포함하는 검색을 의미하는 것일 수 있다.
S604단계에서 데이터수집부(300)는 상기 주제어, 키워드, 카테고리 및 관계에 의해 검색된 데이터를 데이터베이스(330)에 저장한다.
상기 본 발명의 내용은 도면에 도식된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 네트웍
20 : 뉴스서버
30 : 인터넷사전 40 : 컨셉넷
100 : 전처리부 110 : 뉴스크롤링부
120 : 키워드추출부 200 : 추출부
210 : 카테고리 추출부 220 : 관계추출부
222 : 제1 번역부 224 : 단어관계추출부
226 : 제2 번역부 300 : 데이터수집부
310 : 결합부 320 : 검색부
330 : 데이터베이스 400 ; 입출력부
30 : 인터넷사전 40 : 컨셉넷
100 : 전처리부 110 : 뉴스크롤링부
120 : 키워드추출부 200 : 추출부
210 : 카테고리 추출부 220 : 관계추출부
222 : 제1 번역부 224 : 단어관계추출부
226 : 제2 번역부 300 : 데이터수집부
310 : 결합부 320 : 검색부
330 : 데이터베이스 400 ; 입출력부
Claims (12)
- 소정 언어의 주제어가 입력되면 상기 소정 언어의 주제어로부터 네트웍에 접속하여 키워드를 추출하는 전처리부;
상기 소정 언어의 주제어와 연결된 카테고리를 추출하고 관계를 추출하는 추출부;
상기 주제어, 키워드, 카테고리 및 관계를 합산하거나 조합하고 네트웍에 접속하여 상기 합산된 주제어, 키워드, 가테고리 및 관계 데이터와 관련된 데이터를 수집하는 데이터수집부; 및
소정 언어의 상기 주제어를 입력하고 상기 데이터수집부에 수집된 데이터를 출력하는 입출력부;를 포함하는 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 제1항에 있어서, 상기 전처리부는,
상기 주제어와 관련된 뉴스를 크롤링하는 뉴스크롤링부;
상기 뉴스크롤링부에 의해 크롤링된 뉴스들로부터 키워드를 추출하는 키워드추출부;를 포함하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 제1항에 있어서, 상기 추출부는,
상기 주제어와 상기 키워드를 이용하여 네트웍으로 연결된 인터넷사전의 API로부터 카테고리를 추출하는 카테고리 추출부; 및
상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 관계추출부;를 포함하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 제3항에 있어서, 상기 관계추출부는,
상기 주제어, 키워드 및 카테고리를 상기 컨셉넷에 통용되는 언어로 번역하는 제1 번역부;
상기 제1 번역부에 의해 번역된 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단어관계추출부;
상기 추출부에 의해 추출된 관계를 상기 소정의 언어로 번역하는 제2 번역부;를 포함하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 제4항에 있어서, 상기 단어관계추출부는,
상기 주제어, 키워드 및 카테고리에 대응하는 "이다(IsA)", "관계다(RelatedTo)", "로 만든(MadeOf)", "갖는다(HasA)", "부분(PartOf)"에 대응하는 단어들을 검색하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 제1항에 있어서, 상기 데이터수집부는,
주제어, 키워드, 카테고리 및 관계를 결합하는 결합부;
네트웍에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색하는 검색부; 및
상기 주제어, 키워드, 카테고리 및 관계에 의해 검색된 데이터를 저장하는 데이터베이스;를 포함하여 구성되는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 시스템. - 소정 언어의 주제어를 입력받는 단계;
네트웍에 접속하여 상기 주제어에 대응하는 키워드를 추출하는 단계;
상기 소정 언어의 주제어와 전처리부에 의해 추출된 키워드를 이용하여 상기 주제어에 대응하는 카테고리를 추출하고 관계를 추출하는 단계;
상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계;
상기 주제어, 키워드, 카테고리 및 관계를 합산하거나 조합하는 단계;
네트웍에 접속하여 상기 합산되거나 조합된 주제어, 키워드, 카테고리 및 관계 데이터를 수집하는 단계; 및
상기 합산된 주제어, 키워드 및 관계와 관련된 데이터를 출력하는 단계;를 포함하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법. - 제7항에 있어서, 상기 키워드를 추출하는 단계는,
상기 주제어와 관련된 뉴스를 크롤링하는 단계;
상기 크롤링된 뉴스들로부터 키워드를 추출하는 단계;를 포함하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법. - 제7항에 있어서, 상기 카테고리를 추출하고 관계를 추출하는 단계는,
상기 주제어와 상기 키워드를 이용하여 네트웍으로 연결된 인터넷사전의 API로부터 카테고리를 추출하는 단계; 및
상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계;를 포함하여 구성되는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법. - 제9항에 있어서, 상기 관계를 추출하는 단계는,
상기 주제어, 키워드 및 카테고리를 상기 컨셉넷에 통용되는 언어로 번역하는 제1 번역단계;
상기 제1 번역단계에서 번역된 상기 주제어, 키워드 및 카테고리를 컨셉넷에 연결하여 관계를 추출하는 단계;
상기 추출하는 단계에서 추출된 관계를 상기 소정의 언어로 번역하는 제2 번역단계;를 포함하여 구성되는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법. - 제9항에 있어서, 상기 관계를 추출하는 단계는,
"이다(IsA)", "관계다(RelatedTo)", "로 만든(MadeOf)", "갖는다(HasA)", "부분(PartOf)"에 대응하는 단어들을 검색하는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법. - 제7항에 있어서, 상기 데이터를 수집하는 단계는,
네트웍에 접속하여 결합된 주제어, 키워드, 카테고리 및 관계에 관련된 데이터를 검색하는 단계; 및
상기 주제어, 키워드, 카테고리 및 관계에 의해 검색된 데이터를 저장하는 단계;를 포함하여 구성되는 것인 컨셉넷을 이용한 소정 언어의 관계 분석 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180062761A KR102102345B1 (ko) | 2018-05-31 | 2018-05-31 | 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180062761A KR102102345B1 (ko) | 2018-05-31 | 2018-05-31 | 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190140534A true KR20190140534A (ko) | 2019-12-20 |
KR102102345B1 KR102102345B1 (ko) | 2020-04-20 |
Family
ID=69062961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180062761A KR102102345B1 (ko) | 2018-05-31 | 2018-05-31 | 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102102345B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100125682A (ko) * | 2009-05-21 | 2010-12-01 | 주식회사 아이네크 | 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템 |
KR101589621B1 (ko) | 2015-02-23 | 2016-01-28 | 주식회사 와이즈넛 | 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법 |
-
2018
- 2018-05-31 KR KR1020180062761A patent/KR102102345B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100125682A (ko) * | 2009-05-21 | 2010-12-01 | 주식회사 아이네크 | 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템 |
KR101589621B1 (ko) | 2015-02-23 | 2016-01-28 | 주식회사 와이즈넛 | 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102102345B1 (ko) | 2020-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
US20050197829A1 (en) | Word collection method and system for use in word-breaking | |
CN102662936B (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
US7440938B2 (en) | Method and apparatus for calculating similarity among documents | |
JP2002245061A (ja) | キーワード抽出 | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
CN103020311B (zh) | 一种用户检索词的处理方法及系统 | |
KR102083017B1 (ko) | 플레이스의 소셜 리뷰 분석 방법 및 시스템 | |
JP2003150623A (ja) | 言語横断型特許文献検索方法 | |
Alkhatib et al. | Paraphrasing Arabic metaphor with neural machine translation | |
KR100892990B1 (ko) | 검색사이트의 자동비교 검색시스템 및 검색방법 | |
KR102102345B1 (ko) | 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity | |
KR102102344B1 (ko) | 컨셉넷을 이용한 한국어 관계 분석 시스템 및 방법 | |
TW201629801A (zh) | 資訊取得系統與方法、以及儲存裝置 | |
KR20010097802A (ko) | 다국어 검색과 검색정보 자동번역/분류 시스템과 그를이용한 다국어 검색방법 | |
Lu et al. | Translation disambiguation in web-based translation extraction for English-Chinese CLIR | |
Batjargal et al. | Providing universal access to Japanese humanities digital libraries: an approach to federated searching system using automatic metadata mapping | |
Kwok et al. | CHINET: a Chinese name finder system for document triage | |
KR20020027088A (ko) | 구문 분석에 의거한 자연어 처리 기술 및 그 응용 | |
Chen et al. | Chinese named entity abbreviation generation using first-order logic | |
Kim et al. | A study on the construction of national R&D data-based customized information curation system | |
KR100956413B1 (ko) | 언어 교차 검색 방법 및 시스템 | |
JP2011095802A (ja) | 機械翻訳装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |