KR101542195B1 - 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 - Google Patents
비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 Download PDFInfo
- Publication number
- KR101542195B1 KR101542195B1 KR1020140036626A KR20140036626A KR101542195B1 KR 101542195 B1 KR101542195 B1 KR 101542195B1 KR 1020140036626 A KR1020140036626 A KR 1020140036626A KR 20140036626 A KR20140036626 A KR 20140036626A KR 101542195 B1 KR101542195 B1 KR 101542195B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- knowledge
- unit
- characteristic
- knowledge data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 지식 베이스 구축 시스템은 외부로부터 비정형 데이터 및 외부 지식 데이터를 입력 받는 인터페이스부; 상기 인터페이스부로부터 수신되는 상기 비정형 데이터의 특성을 추출하고, 상기 특성에 대한 관계 정보를 설정하여, 상기 비정형 데이터에 대한 특성 정보로 생성하는 비정형 데이터 특성 정보 생성부; 상기 인터페이스부로부터 수신되는 상기 외부 지식 데이터에 근거하여, 상기 비정형 데이터로부터 수신되는 상기 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증하는 지식 데이터 관리부; 및 상기 검증된 내부 지식 데이터를 저장하는 지식 데이터 저장부를 포함한다.
Description
본 발명은 지식 베이스를 구축하는 시스템 및 방법에 관한 것으로, 구체적으로 다양한 비정형 데이터로부터 지식의 기반이 되는 특성을 추출하고, 비정형 데이터의 특성을 기 존재하는 지식과 연계하여 처리함으로써, 지식 데이터의 생성, 저장 및 변환을 유기적으로 관리하여, 정확하고 효율적인 지식 베이스를 구출할 수 있는 시스템 및 방법에 관한 것이다.
본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발산업(SW)의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2013.05.01 ~ 2014.04.30, 연구관리 전문기관: 한국산업기술평가관리원, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]
지식 베이스(Knowledge Base)의 구축은 수집된 자료(데이터)를 어휘 체계로 분류하고 이를 데이터 베이스에 저장함으로써 수행될 수 있다. 이렇게 구현된 지식 베이스는 사용자로부터 입력되는 질의를 정보텍스트 키워드(text keyword) 검색 방식으로 처리할 수 있다. 그런데 이 경우, 너무 많은 정보가 사용자에게 제공되어 사용자가 검색된 정보로부터 재검색을 해야 하는 등, 비효율적이고 부정확한 처리가 수행될 수 있다. 더욱이, 데이터의 양적 증가 및 데이터 종류의 다양화에 의해, 상기의 비효율적이고 부정확한 처리가 수행되는 상황이 빈번히 발생할 수 있다.
본 발명은 지속적으로 확장되어 효율적으로 사용될 수 있고, 정확한 지식 데이터를 보유할 수 있는 지식 베이스를 구축하는 시스템 및 방법을 제공한다.
본 발명의 일 실시예에 따른 지식 베이스 구축 시스템은 외부로부터 비정형 데이터 및 외부 지식 데이터를 입력 받는 인터페이스부; 상기 인터페이스부로부터 수신되는 상기 비정형 데이터의 특성을 추출하고, 상기 특성에 대한 관계 정보를 설정하여, 상기 비정형 데이터에 대한 특성 정보로 생성하는 비정형 데이터 특성 정보 생성부; 상기 인터페이스부로부터 수신되는 상기 외부 지식 데이터에 근거하여, 상기 비정형 데이터로부터 수신되는 상기 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증하는 지식 데이터 관리부; 및 상기 검증된 내부 지식 데이터를 저장하는 지식 데이터 저장부를 포함한다.
본 발명의 일 실시예에 따른 지식 베이스를 구축하는 시스템 및 방법에 의하면, 다양한 비정형성 데이터로부터 특성을 추출하고, 특성의 관계를 분석하여, 비정형 데이터에 의미를 부여하여 기 생성된 지식 데이터와 연계시킴으로써, 지식 베이스를 지속적 그리고 효율적으로 확장시키는 장점이 있다.
본 발명의 일 실시예에 따른 지식 베이스를 구축하는 시스템 및 방법에 의하면, 지식 베이스 또는 지식 데이터의 신뢰도를 효율적으로 향상시킬 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 지식 베이스 구축 시스템을 나타내는 도면이다.
도 2는 도 1의 특성 추출 관리부의 일 예를 나타내는 도면이다.
도 3은 도 1의 변환 검증부의 일 예를 나타내는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다.
도 2는 도 1의 특성 추출 관리부의 일 예를 나타내는 도면이다.
도 3은 도 1의 변환 검증부의 일 예를 나타내는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예에 대해 상세히 설명한다. 본 개시의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 개시를 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 형태에 대해 한정하려는 것이 아니며, 특허청구범위의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 개시의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
도 1은 본 발명의 일 실시예에 따른 지식 베이스 구축 시스템을 나타내는 도면이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 지식 베이스 구축 시스템(100)은 인터페이스부(120), 비정형 데이터 비정형 데이터 특성 정보 생성부(140), 지식 데이터 관리부(160) 및 지식 데이터 저장부(180)를 포함한다.
인터페이스부(120)는 외부의 데이터 풀(data pool)로부터 데이터를 입력 받는다. 데이터 풀은 인터넷(internet), 데이터 베이스(database), 클라우드 소싱(cloud sourcing) 및 소셜 네트워크(social network) 등, 데이터가 생성되고 보유되며 유통될 수 있는 것을 나타낼 수 있다. 또한, 데이터 풀은 대중 또는 개인에 의해 직접 제공되는 데이터도 포함할 수 있다.
인터페이스부(120)는 비정형 데이터 인터페이스부(122) 및 외부 지식 데이터 인터페이스부(124)를 포함할 수 있다. 비정형 데이터 인터페이스부(122)는 데이터 풀로부터 비정형 데이터(informal data 또는 unstructured data)를 입력 받는다. 비정형 데이터는 고정된 형태로 구현되지 아니하는 데이터로, 대응되는 필드(field)에 대응되는 콘텐츠(contents)가 포함되는 정형 데이터(formal data 또는 structured data)와 대비된다. 예를 들어, 데이터 베이스(database) 또는 스프레드시트(spreadsheet) 등은 정형 데이터이고, 텍스트 문서, 음성 데이터 및 영상 데이터 등은 비정형 데이터일 수 있다. 고정된 필드에 저장되지는 않지만, 메타데이터(metadata)나 스키마(schema) 등을 포함하는 데이터로, XML이나 HTML은 반정형 데이터로 분류될 수는 있으나, 본 발명은 반정형 데이터를 비정형 데이터의 일 유형으로 전제될 수 있음을 알려둔다. 비정형 데이터는 전술된 데이터 풀의 예 중, 클라우드 소싱 또는 소셜 네트워크 등을 통해 생성, 보유 및 유통될 수 있다.
외부 지식 데이터 인터페이스부(124)는 데이터 풀로부터 지식 데이터를 입력 받는다. 전술된 정형 데이터 또는 비정형 데이터를 가공 전의 데이터라 하고, 이를 유의미하게 가공한 2차 데이터를 정보(information)이라 할 수 있다. 외부 지식 데이터 인터페이스부(124)에서 입력 받는 지식 데이터는 정보를 어떻게 이용하는지에 대한 메타정보일 수 있다. 예를 들어, 시강을 관측함에 있어서 획득되는 풍속, 풍향 및 습도 등은 데이터에 해당될 수 있고, 이를 모델링(modeling)하여 예측되는 날씨는 정보에 해당될 수 있다. 이때, 지식은 시행 착오 및 누적 정보의 분석 등을 통해, 예를 들어, 눈이 올 경우 운전사고 발생률이 높아진다는 결론을 얻을 수 있는데, 이것이 지식 데이터에 해당될 수 있다. 이하에서는 외부로부터 입력되는 지식 데이터와 지식 베이스 구축 시스템(100)에 의해 생성 및 관리되는 지식 데이터를 구분하기 위해, 전자를 외부 지식 데이터로, 후자를 내부 지식 데이터로 구분한다. 외부 지식 데이터 인터페이스부(124)는 위키(Wiki), 디비피디아(DBpedia), 프리 베이스(FreeBase) 등으로부터 외부 지식 데이터를 수신할 수 있다.
이와 같이, 인터페이스부(120)는 외부로부터 비정형 데이터 및 외부 지식 데이터를 검색 엔진 등을 통해 자동적으로 수신할 수 있다. 또한, 비정형 데이터 특성 정보 생성부(140) 또는 지식 데이터 관리부(160)의 요청, 또는 지식 베이스 구축 시스템(100)의 다른 기능 블록에 의한 요청이 발생하는 때에, 그에 따라 데이터 풀로부터 비정형 데이터 및 외부 지식 데이터를 수신할 수 있다.
비정형 데이터 특성 정보 생성부(140)는 입력된 비정형 데이터의 특성을 추출하고, 특성에 대한 관계 정보를 설정하여, 비정형 데이터에 대한 특성 정보로 생성한다. 비정형 데이터 특성 정보 생성부(140)는 특성 추출 관리부(142), 특성 관계 설정부(144) 및 특성 관계 설정부(146)를 포함할 수 있다.
특성 추출 관리부(142)는 비정형 데이터를 데이터 종류에 따라 분류하여, 대응되는 데이터 종류에 따라 특성을 추출하는 방법을 달리하도록 제어 신호를 생성할 수 있다. 예를 들어, 특성 추출 관리부(142)는, 비정형 데이터의 데이터 종류가 텍스트(text)인 경우, 비정형 데이터에 포함된 단어의 빈도수에 근거하여 특성이 추출되도록 제어 신호를 생성할 수 있다. 또는, 특성 추출 관리부(142)는 비정형 데이터의 데이터 종류가 음성 또는 영상인 경우, 비정형 데이터의 주파수 스펙트럼에 근거하여 상기 특성이 추출되도록 제어 신호를 생성할 수 있다.
도 2는 도 1의 특성 추출 관리부의 일 예를 나타내는 도면이다. 도 2을 참조하면, 전술된 동작을 수행하기 위해, 데이터 유형 판단부(142_2), 텍스트 처리 모듈(142_4), 음성 및 영상 처리 모듈(142_6), 및 제어 신호 생성부(142_8)를 포함할 수 있다. 데이터 유형 판단부(142_2)는 비정형 데이터가 텍스트인지 음성 또는 영상인지를 분류할 수 있다.
텍스트 처리 모듈(142_4)은 예를 들어, 자연어처리(Natural Language Processing) 또는 문서처리 기술들을 기반하여 텍스트 마이닝(text mining)을 수행하고, 이로부터 비정형 데이터에 포함된 단어의 발생 횟수를 카운트할 수 있다. 음성 및 영상 처리 모듈(142_6)은 음성 및 영상에 포함된 주파수 스펙트럼을 분석하는 등 이미지 마이닝(image minig)을 수행할 수 있다. 텍스트 처리 모듈(142_4), 및 음성 및 영상 처리 모듈(142_6)은 각각, 플러그-인(plug-in)으로 구현될 수 있다.
제어 신호 생성부(142_8)는 텍스트 처리 모듈(142_4)로부터 텍스트에 포함된 단어의 발생 횟수에 대한 정보를 수신하거나, 음성 및 영상 처리 모듈(142_6)의 주파수 스펙트럼에 대한 분석 결과를 수신하여, 해당 정보를 나타내는 제어 신호를 생성할 수 있다.
다시 도 1을 참조하면, 특성 관계 설정부(144)는 제어 신호에 응답하여 비정형 데이터로부터 특성을 추출할 수 있다. 예를 들어, 특성 관계 설정부(144)는 발생 빈도수가 많은 단어들을 특성으로 추출할 수 있다. 또는 특성 관계 설정부(144)는 주파수 스펙트럼에 대한 분석 결과에 따른 영상 내의 객체를 정의할 수 있다. 이 경우, 특성 관계 설정부(144)는 얼굴 이미지에 대해 눈, 코 및 입 등의 객체를 특성으로 추출할 수 있다. 특성 관계 설정부(144)는 이를 위해 주파수 스펙트럼으로부터 객체로 포맷을 변환시키는 모듈(미도시)을 포함할 수 있다.
특성 관계 설정부(146)는 특성 관계 설정부(144)로부터 추출된 특성에 의미 정보를 부여하여 특성에 대한 관계 정보를 설정할 수 있다. 예를 들어, 특성 관계 설정부(146)는 발생 빈도수가 많은 단어에 어휘 사전을 이용하여 개체명을 태깅(tagging)함으로써 의미 정보를 부여할 수 있다. 나아가 특성 관계 설정부(146)는 특성에 적어도 둘 이상의 의미 정보 사이의 연관 관계를 분석하여 새로이 설정 또는 생성된 의미 정보를 특성에 부여할 수 있다. 예를 들어, 특성 관계 설정부(146)는 텍스트에 포함된 단어가 핸드폰 및 가전제품 등일 때, 이들 특성에 전자제품이라는 의미 정보를 부여할 수 있다. 이때, 특성 관계 설정부(146)는 지식 데이터 저장부(180)에 저장된 내부 지식 데이터를 활용하여 상기의 분석을 수행할 수 있다.
이와 같이 생성된 특성 정보는 지식 데이터 관리부(160)로 전송된다. 지식 데이터 관리부(160)는 인터페이스부(120)로부터 수신되는 지식 데이터 근거하여, 비정형 데이터 특성 정보 생성부(140)로부터 수신되는 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증한다. 이를 위해, 지식 데이터 관리부(160)는 지식 데이터 변환부(162) 및 변환 검증부(164)를 포함할 수 있다.
지식 데이터 변환부(162)는 특성 정보를 시맨틱 기술(semantic technology)을 이용하여 정형 데이터로 변환할 수 있다. 시맨틱 기술은 사람이 화면을 읽고 의미를 이해하는 것처럼 컴퓨터가 이해할 수 있는 언어와 규칙들을 정해 놓아 컴퓨터 사이의 의사소통을 가능하게 하는 지능형 기술을 의미한다. 시맨틱 기술에서는 해당 환경에 속하는 객체들 간의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 것을 목표로 하고 있다. 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 도메인을 표현하는 데이터 모델로서 특정한 도메인(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형 데이터로 정의된다. 온톨로지는 시맨틱 기술을 구현할 수 있는 도구로써, 데이터를 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.
이러한 시맨틱 기술 분야에서는 관계를 표현하기 위한 수단으로서 트리플(triple)이라는 표현 형태를 사용한다. 트리플이란, 주어(subject), 술어(predicate), 객체(object)의 형태로 개념을 표현하는 것을 말한다. 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있으며, 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.
지식 데이터 변환부(162)는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부(162)는 특성 정보에 포함되는 주어, 술어 및 객체의 관계를 형성하여 내부 지식 데이터를 형성하거나 추가적인 객체 등을 연결함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부(162)는 사람 A, 사람 B 및 결혼이라는 특성 정보를 "A는 B와 결혼했다"와 같은 변환할 수 있는데, 위키피디아의 A와 B의 결혼식에 관한 지식 데이터를 활용하여 "A와 B는 2013년 8월 10일 하얏트 호텔에서 결혼했다"와 같은 내부 지식 데이터로 변환할 수 있다. 상기 예는 예시를 위한 것이므로 전술된 데이터와 지식 등의 구분에 따른 지식 데이터와 무관할 수 있다.
지식 데이터 변환부(162)는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 특성 정보(또는 특성) 또는 외부 지식 데이터에 가중치를 부여할 수 있다. 예를 들어, 임의의 텍스트에 포함된 가구 및 가전제품 등의 특성에 대해 집이라는 의미 정보를 부여한 특성 정보에 대해, 해당 텍스트에 포함된 다른 특성들을 고려하여 가구보다 가전제품에 대한 가중치를 가구보다 높이 하여, 신혼과 관련된 내부 지식 데이터로 생성할 수 있다. 또는, 지식 데이터 변환부(162)는 사람 A, 사람 C, 연애 및 A는 미혼이라는 외부 지식 데이터보다, 사람 A, 사람 B 및 결혼이라는 특성 정보에 가중치를 더 부여하여, A는 미혼이라는 외부 지식 데이터와 모순되는 특성 정보에 근거하여 A는 기혼이라는 내부 지식 데이터를 생성할 수 있다. 이때, 지식 데이터 변환부(162)는 A는 기혼여부에 대해 일단 미확인 등과 같은 보류된 내부 지식 데이터를 생성한 후, 추후 누적되는 특성 정보 또는 외부 지식 데이터에 근거하여 A는 기혼여부에 대한 최종적인 내부 지식 데이터를 생성할 수 있다.
도 3은 도 1의 변환 검증부의 일 예를 나타내는 도면이다. 도 1을 참조하면, 변환 검증부(164)는 지식 데이터 변환부(162)로부터 생성된 내부 지식 데이터(임시의 내부 지식 데이터)는 이종의 검증 방법으로 검증하여, 검증된 내부 지식 데이터로 처리할 수 있다. 변환 검증부(164)는 자동 검증부(164_2) 및 수동 검증부(164_4)를 포함할 수 있다.
자동 검증부(164_2)는 알고리즘 등에 기반하여 자동으로 검증 동작을 수행할 수 있다. 예를 들어, 자동 검증부(164_2)는 문장 구조의 오류 등과 같은 형식적 오류를 자동으로 검출하여 정정하거나 외부 지식 데이터와 모순되는 내부 지식 데이터를 검출할 수 있다. 또는 자동 검증부(164_2)는 기 설정된 알고리즘 등에 의해, 인터넷, 클라우드 소싱, 및 외부 지식 데이터(예를 들어, 위키피디아)에 근거하여, 자동으로 임시의 내부 지식 데이터의 오류를 검색하고 수정할 수 있다. 자동 검증부(164_2)는, 예를 들어, 소셜 네트워크 등을 이용하여 임시의 내부 지식 데이터에 대한 피드백(feedback)을 통해 임시의 시나리오의 오류를 검색하고 수정할 수 있다.
수동 검증부(164_4)는 임시의 내부 지식 데이터에 대해 수동으로 오류를 검색 또는 수정할 것을 지시할 수 있다. 예를 들어, 수동 검증부(164_4)는 수동으로 오류를 검색 또는 수정할 것이 요구되는 때에, 사용자(또는 지식 큐레이터)에게 이를 알리기 위한 인터페이스(예를 들어, 점등 또는 팝업창 등)로 구현될 수 있다. 수동 검증부(164_4)는 인터페이스를 통해 사용자(또는 지식 큐레이터)로부터 입력되는 데이터 또는 정보에 근거하여, 임시의 내부 지식 데이터에 대한 오류를 검색 또는 수정할 수 있다. 수동 검증부(164_4)는 예를 들어, 자동 검증부(164_2)로부터 요청이 있는 때에, 상기와 같은 동작을 수행할 수 있다. 전술된 예와 같이 자동 검증부(164_2)가 소셜 네트워크로부터 임시의 내부 지식 데이터에 대한 오류를 수신하는 때에, 수동 검증부(164_4)에 오류 정정에 대한 요청을 전송할 수 있다. 또는 수동 검증부(164_4)는 자동 검증부(164_2)의 요청이 없더라도 주기적으로 상기와 같은 동작을 수행할 수 있다.
변환 검증부(164)의 상기와 같이, 자동 검증 동작 및 수동 검증 동작의 병행에 의해, 본 발명의 실시예에 따른 지식 베이스 구축 시스템(100)은 보다 효율적으로, 정확하고 유용한 지식 데이터를 생성할 수 있다.
다시 도 1을 참조하면, 변환 검증부(164)에 의해 검증된 내부 지식 데이터는 지식 데이터 저장부(180)에 저장된다.
이렇듯, 본 발명의 일 실시예에 따른 지식 베이스를 구축하는 시스템 및 방법에 의하면, 다양한 비정형성 데이터로부터 특성을 추출하고, 특성의 관계를 분석하여, 비정형 데이터에 의미를 부여하여 기 생성된 지식 데이터와 연계시킴으로써, 지식 베이스를 지속적 그리고 효율적으로 확장시키는 장점이 있다. 또한, 본 발명의 일 실시예에 따른 지식 베이스를 구축하는 시스템 및 방법에 의하면, 지식 베이스 또는 지식 데이터의 신뢰도를 효율적으로 향상시킬 수 있는 장점이 있다.
도 4는 본 발명의 다른 실시예에 따른 지식베이스 구축 시스템을 나타내는 도면이다. 도 4를 참조하면, 본 발명의 다른 실시예에 따른 지식베이스 구축 시스템(100)은 인터페이스부(120), 비정형 데이터 특성 정보 생성부(140), 지식 데이터 관리부(160), 지식 데이터 저장부(180)자가 지식 학습부(440), 및 추론부(460)를 포함한다.
인터페이스부(120), 비정형 데이터 특성 정보 생성부(140), 지식 데이터 관리부(160), 및 지식 데이터 저장부(180)는 각각, 전술된 도 1의 인터페이스부(120), 비정형 데이터 특성 정보 생성부(140), 지식 데이터 관리부(160), 및 지식 데이터 저장부(180)일 수 있다. 인터페이스부(120), 비정형 데이터 특성 정보 생성부(140), 지식 데이터 관리부(160), 및 지식 데이터 저장부(180)는 지식 획득부(420)로 기능할 수 있다. 지식 획득부(420)는 인터넷 등으로부터 빅 데이터(big data)를 수신함으로써 외부 자원을 크롤링(crwaling)할 수 있다. 지식 획득부(420)는 상기와 같은 외부 자원으로부터, 자연어 처리 및 의미 부여 등을 통해 데이터를 분류 및 정제하고 지식 자원의 선별과 의미적 통합 등을 수행하여 지식을 획득할 수 있다. 지식 획득부(420)는 전술한 바와 같이, 빅 데이터 중 비정형 데이터의 특성 정보를, 외부 지식 데이터에 근거하여, 내부 지식 데이터로 변환함으로써, 지식 베이스를 지속적 그리고 효율적으로 확장시킬 수 있다. 따라서, 본 발명의 실시예에 따른 지식베이스 구축 시스템(100)은 보다 신뢰성 있는 지식을 제공할 수 있다.
자가 지식 학습부(440)는 지식 획득부(420)에 의해 획득된 지식(또는 지식 데이터) 또는 지식 데이터 저장부(180)에 저장된 지식(또는 지식 데이터)을 자가 학습하여 보다 정제된 지식으로 처리할 수 있다. 예를 들어, 자가 지식 학습부(440)는 파편화된 지식(또는 지식 데이터)을 학습을 통해 분석하여 통합할 수 있다. 예를 들어, 자가 지식 학습부(440)는 위키(wiki) 등을 통해 학습되는 외부 지식 데이터를 통해, 파편화된 지식을 연결시키거나, 모순된 지식을 정정할 수 있다. 자가 지식 학습부(440)에 의해 학습된 지식은 지식 데이터 저장부(180)에 지식 데이터의 형태로 저장될 수 있다. 지식 데이터는 트리플(triple) 또는 스키마(schema) 형태로 구현될 수 있다. 또한, 자가 지식 학습부(440)는 지식 데이터 저장부(180)에 저장된 지식 데이터를 시드(seed) 지식으로 활용할 수 있다. 다만, 자가 지식 학습부(440)의 동작은 지식 데이터 관리부(160)에 의해 수행될 수도 있다.
추론부(460)는 외부로부터 수신되는 질의에 대해 자가 지식 학습부(440)로부터 생성된 지식 데이터 또는 지식 데이터 저장부(180)에 저장된 지식 데이터를 기반으로 추론할 수 있다. 추론부(460)에 의해 추론된 결과는 지식 데이터로 지식 데이터 저장부(180)에 저장되거나, 지식 데이터 저장부(180)에 저장된 지식 데이터를 업데이트 또는 정정하는데 활용될 수 있다.
도 5는 본 발명의 실시예에 따른 인공 지능 시스템을 나타내는 도면이다. 도 5를 참조하면, 본 발명의 실시예에 따른 인공 지능 시스템(500)은 지식 베이스 구축 시스템(100), 지식베이스 구축 시스템(100) 및 지능형 질의 응답 시스템(710)를 포함한다. 지식 베이스 구축 시스템(100)은 전술된 도 1 또는 도 4의 지식 베이스 구축 시스템일 수 있다. 지능형 질의 응답 시스템(510)은 사용자로부터의 질의에 대해 지식베이스 구축 시스템(500)을 이용하여 응답을 생성한다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 지식 데이터 변환부가 특성 정보를 내부 지식 데이터로 변환함에 있어서 외부 지식 데이터에 근거하지 아니하고 특성 정보만으로 내부 지식 데이터를 생성할 수도 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 지식 베이스 구축 시스템
120: 인터페이스부
140: 비정형 데이터 특성 정보 생성부
160: 지식 데이터 관리부
180: 지식 데이터 저장부
120: 인터페이스부
140: 비정형 데이터 특성 정보 생성부
160: 지식 데이터 관리부
180: 지식 데이터 저장부
Claims (7)
- 외부로부터 비정형 데이터 및 외부 지식 데이터를 입력 받는 인터페이스부;
상기 인터페이스부로부터 수신되는 상기 비정형 데이터의 특성을 추출하고, 상기 특성에 대한 관계 정보를 설정하여, 상기 비정형 데이터에 대한 특성 정보로 생성하는 비정형 데이터 특성 정보 생성부;
상기 인터페이스부로부터 수신되는 상기 외부 지식 데이터에 근거하여, 상기 비정형 데이터로부터 수신되는 상기 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증하는 지식 데이터 관리부; 및
상기 검증된 내부 지식 데이터를 저장하는 지식 데이터 저장부를 포함하고,
상기 비정형 데이터 특성 정보 생성부는,
상기 비정형 데이터를 데이터 종류에 따라 분류하여, 대응되는 데이터 종류에 따라 상기 특성을 추출하는 방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부;
상기 제어 신호에 응답하여 상기 비정형 데이터로부터 상기 특성을 추출하는 특성 추출부; 및
상기 특성에 의미 정보를 부여하여 상기 특성에 대한 관계 정보를 설정하는 특성 관계 설정부를 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템. - 삭제
- 제1 항에 있어서, 상기 특성 추출 관리부는,
상기 비정형 데이터의 데이터 종류가 텍스트(text)인 경우, 상기 비정형 데이터에 포함된 단어의 빈도수에 근거하여 상기 특성을 추출하도록 상기 제어 신호를 생성하고,
상기 비정형 데이터의 데이터 종류가 음성 또는 영상인 경우, 상기 비정형 데이터의 주파수 스펙트럼에 근거하여 상기 특성을 추출하도록 상기 제어 신호를 생성하는 것을 특징으로 하는 지식 베이스 구축 시스템. - 제1 항에 있어서, 상기 특성 관계 설정부는,
상기 지식 데이터 관리부에 저장된 내부 지식 데이터에 근거하여 상기 의미 정보를 상기 특성에 부여하는 것을 특징으로 하는 지식 베이스 구축 시스템. - 제1 항에 있어서, 상기 지식 데이터 관리부는,
상기 인터페이스로부터 수신되는 상기 외부 지식 데이터에 근거하여, 상기 비정형 데이터 특성 정보 생성부로부터 수신되는 특성 정보를 정형 데이터로 변환하는 지식 데이터 변환부; 및
상기 지식 데이터 변환부에 의해 변환된 내부 지식 데이터에 포함되는 오류를 검출하고 정정하는 변환 검증부를 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템. - 제5 항에 있어서, 상기 지식 데이터 변환부는,
상기 특성 정보에 포함되는 특성들 사이의 가중치를 달리 부여하거나, 상기 특성 정보 및 상기 외부 지식 데이터에 대한 가중치를 달리 부여하는 것을 특징으로 하는 지식 베이스 구축 시스템. - 제1 항에 있어서,
상기 지식 데이터 베이스에 저장된 내부 지식 데이터를 기반으로, 외부로부터 인가되는 질의에 대한 응답을 추론하는 추론부를 더 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140036626A KR101542195B1 (ko) | 2014-03-28 | 2014-03-28 | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140036626A KR101542195B1 (ko) | 2014-03-28 | 2014-03-28 | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101542195B1 true KR101542195B1 (ko) | 2015-08-05 |
Family
ID=53886383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140036626A KR101542195B1 (ko) | 2014-03-28 | 2014-03-28 | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101542195B1 (ko) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101644429B1 (ko) * | 2016-02-17 | 2016-08-10 | 한국과학기술정보연구원 | 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 |
KR20170122871A (ko) * | 2016-04-27 | 2017-11-07 | 주식회사 와이즈넛 | 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치 |
KR20180015561A (ko) * | 2016-08-03 | 2018-02-13 | 한국전자통신연구원 | 적응형 지식 베이스 구축 방법 및 그 시스템 |
KR20180093157A (ko) | 2017-02-09 | 2018-08-21 | 서울대학교산학협력단 | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 |
KR20190053825A (ko) * | 2019-05-10 | 2019-05-20 | 주식회사 공감랩 | 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법 |
KR102062586B1 (ko) * | 2018-01-09 | 2020-01-06 | 주식회사 룰루랩 | 화장품 관련 리뷰 데이터 기반 화장품 추천 시스템 및 화장품 추천 방법 |
KR20200086586A (ko) * | 2019-01-09 | 2020-07-17 | 주식회사 솔트룩스 | 온톨로지 기반의 프레임을 이용한 지식 추출 시스템 |
KR20210060830A (ko) * | 2019-11-19 | 2021-05-27 | 주식회사 피씨엔 | 빅데이터 지능형 수집 방법 및 장치 |
CN115168606A (zh) * | 2022-07-01 | 2022-10-11 | 北京理工大学 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
WO2023085499A1 (ko) * | 2021-11-12 | 2023-05-19 | 주식회사 솔트룩스 | 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 |
WO2024019225A1 (ko) * | 2022-07-21 | 2024-01-25 | 스마트마인드 주식회사 | 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼 |
WO2024071504A1 (ko) * | 2022-09-29 | 2024-04-04 | 스마트마인드 주식회사 | 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216626A (ja) * | 2002-01-21 | 2003-07-31 | Mitsubishi Electric Corp | 構造化文書処理装置、構造化文書処理方法及び構造化文書処理プログラム |
-
2014
- 2014-03-28 KR KR1020140036626A patent/KR101542195B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216626A (ja) * | 2002-01-21 | 2003-07-31 | Mitsubishi Electric Corp | 構造化文書処理装置、構造化文書処理方法及び構造化文書処理プログラム |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017142109A1 (ko) * | 2016-02-17 | 2017-08-24 | 한국과학기술정보연구원 | 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 |
KR101644429B1 (ko) * | 2016-02-17 | 2016-08-10 | 한국과학기술정보연구원 | 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법 |
KR20170122871A (ko) * | 2016-04-27 | 2017-11-07 | 주식회사 와이즈넛 | 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치 |
KR101866487B1 (ko) * | 2016-04-27 | 2018-06-12 | 주식회사 와이즈넛 | 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치 |
KR102053243B1 (ko) | 2016-08-03 | 2019-12-06 | 한국전자통신연구원 | 적응형 지식 베이스 구축 방법 및 그 시스템 |
KR20180015561A (ko) * | 2016-08-03 | 2018-02-13 | 한국전자통신연구원 | 적응형 지식 베이스 구축 방법 및 그 시스템 |
KR20180093157A (ko) | 2017-02-09 | 2018-08-21 | 서울대학교산학협력단 | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 |
KR102062586B1 (ko) * | 2018-01-09 | 2020-01-06 | 주식회사 룰루랩 | 화장품 관련 리뷰 데이터 기반 화장품 추천 시스템 및 화장품 추천 방법 |
KR20200086586A (ko) * | 2019-01-09 | 2020-07-17 | 주식회사 솔트룩스 | 온톨로지 기반의 프레임을 이용한 지식 추출 시스템 |
KR102182619B1 (ko) * | 2019-01-09 | 2020-11-24 | 주식회사 솔트룩스 | 온톨로지 기반의 프레임을 이용한 지식 추출 시스템 |
KR20190053825A (ko) * | 2019-05-10 | 2019-05-20 | 주식회사 공감랩 | 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법 |
KR102245888B1 (ko) * | 2019-05-10 | 2021-04-30 | 주식회사 공감랩 | 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법 |
KR20210060830A (ko) * | 2019-11-19 | 2021-05-27 | 주식회사 피씨엔 | 빅데이터 지능형 수집 방법 및 장치 |
KR102345410B1 (ko) * | 2019-11-19 | 2021-12-30 | 주식회사 피씨엔 | 빅데이터 지능형 수집 방법 및 장치 |
WO2023085499A1 (ko) * | 2021-11-12 | 2023-05-19 | 주식회사 솔트룩스 | 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 |
CN115168606A (zh) * | 2022-07-01 | 2022-10-11 | 北京理工大学 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
CN115168606B (zh) * | 2022-07-01 | 2024-05-24 | 北京理工大学 | 一种面向半结构化工艺数据的映射模板知识抽取方法 |
WO2024019225A1 (ko) * | 2022-07-21 | 2024-01-25 | 스마트마인드 주식회사 | 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼 |
WO2024071504A1 (ko) * | 2022-09-29 | 2024-04-04 | 스마트마인드 주식회사 | 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101542195B1 (ko) | 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법 | |
WO2018036239A1 (zh) | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 | |
US10691507B2 (en) | API learning | |
US8631048B1 (en) | Data alignment system | |
Ferrández et al. | The QALL-ME framework: A specifiable-domain multilingual question answering architecture | |
US20160196491A1 (en) | Method For Recommending Content To Ingest As Corpora Based On Interaction History In Natural Language Question And Answering Systems | |
US8954360B2 (en) | Semantic request normalizer | |
EP3343400A1 (en) | System and method for dynamically creating a domain ontology | |
US20160110446A1 (en) | Method for disambiguated features in unstructured text | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
KR101637504B1 (ko) | 비정형 데이터 처리 시스템 및 방법 | |
WO2021041722A1 (en) | System and method to extract customized information in natural language text | |
CN102622453A (zh) | 基于本体的食品安全事件语义检索系统 | |
EP3333731A1 (en) | Method and system for creating an instance model | |
Wątróbski | Ontology learning methods from text-an extensive knowledge-based approach | |
Dyvak et al. | Recognition of Relevance of Web Resource Content Based on Analysis of Semantic Components | |
KR20210063874A (ko) | 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치 | |
KR20210097408A (ko) | 유해 웹사이트 정보의 업데이트 장치 및 이에 의한 방법 | |
CN104298683A (zh) | 主题挖掘方法和设备、以及查询扩展方法和设备 | |
KR102682244B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
KR20220074576A (ko) | 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치 | |
Hani et al. | Fane-kg: A semantic knowledge graph for context-based fake news detection on social media | |
KR101684579B1 (ko) | 지식 생성 시스템 및 방법 | |
Tovar et al. | Identification of Ontological Relations in Domain Corpus Using Formal Concept Analysis. | |
KR20210063875A (ko) | 마케팅 정보 분석 서비스 제공을 위한 프로그램 및 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190729 Year of fee payment: 5 |