KR20180089011A - 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템 - Google Patents

고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템 Download PDF

Info

Publication number
KR20180089011A
KR20180089011A KR1020170013525A KR20170013525A KR20180089011A KR 20180089011 A KR20180089011 A KR 20180089011A KR 1020170013525 A KR1020170013525 A KR 1020170013525A KR 20170013525 A KR20170013525 A KR 20170013525A KR 20180089011 A KR20180089011 A KR 20180089011A
Authority
KR
South Korea
Prior art keywords
word
eigenvalue
unit
language
eigenvalues
Prior art date
Application number
KR1020170013525A
Other languages
English (en)
Inventor
강태준
김지후
조영서
Original Assignee
강태준
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강태준 filed Critical 강태준
Priority to KR1020170013525A priority Critical patent/KR20180089011A/ko
Publication of KR20180089011A publication Critical patent/KR20180089011A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템에 관한 것이고, 구체적으로 각각의 단어에 부여된 고유 값에 기초하여 언어의 의미가 탐색되는 것에 의하여 검색의 정확성 및 효율성이 향상되도록 하는 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템에 관한 것이다. 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템은 빅 데이터 서버(BD)와 능동적인 방식으로 연결되어 작동하는 인공지능 엔진(AE)에 의하여 언어를 탐색하는 언어 탐색 시스템에 있어서, 각각의 단어에 고유 값을 설정하는 단어 고유 값 설정 유닛(11); 고유 값에 기초하여 각각의 단어의 분류그룹을 결정하는 분류 그룹 형성 유닛(12); 및 각각의 분류 그룹 형성 유닛(12)의 대표 언어를 결정하는 대표 표시 결정 유닛(13)을 포함하고, 인공지능 엔진(AE)은 각각의 단어에 부여된 고유 값에 기초하여 자료를 검색하는 것을 특징으로 한다.

Description

고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템{A System for Searching a Language Based on Big Data with a Peculiar Value}
본 발명은 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템에 관한 것이고, 구체적으로 각각의 단어에 부여된 고유 값에 기초하여 언어의 의미가 탐색되는 것에 의하여 검색의 정확성 및 효율성이 향상되도록 하는 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템에 관한 것이다.
단어 또는 언어는 사용 환경 또는 사용자에 따라 다양한 의미를 가질 수 있고, 검색 과정에서 단어 또는 언어의 정확한 의미는 다수 개의 검색 결과로부터 사용자는 자신이 원하는 의미를 선택하여야 한다. 또는 여러 번의 검색을 통하여 사용자는 자신이 원하는 검색 결과를 선택하여야 한다. 그리고 이와 같은 검색 방법은 검색 엔진의 성능에 의하여 결정될 수 있다는 단점을 가진다. 또한 이와 같은 검색 방법은 검색 대상의 커질수록 검색의 정확성은 높아질 수 있지만 사용자에게 제공되는 선택 리스트의 수가 증가될 수 있으면서 다양한 사용자의 서로 다른 요구에 적합한 결과를 제공하기 어렵다는 문제점을 가진다. 예를 들어 빅 데이터와 같은 대량의 정보 서버를 대상으로 검색이 이루어지는 경우 이러한 단점이 더욱 커질 수 있다.
특허공개번호 제10-2016-0030996호는 극도로 큰 데이터의 컬렉션이 검색 또는 분석을 어렵게 하는 경우 관련도가 유용한 분류그룹에서 질의 및 웹페이지를 자동으로 분류하고, 이러한 분류 스코어의 관련 특징을 사용하는 것에 의하여 효율이 개선될 수 있도록 하는 컴퓨터-인간 대화형 학습에서 대화형 세그먼트 추출을 하는 것에 대하여 개시하고 있다.
특허등록번호 제10-1651780호는 검색 단어를 수신하는 단계; 상기 수신된 검색 단어에서 검색된 데이터를 수집하는 단계; 상기 수집된 데이터의 형태소를 분석하여 상기 검색 단어와 연관된 후보 단어를 추출하는 단계; 상기 추출된 후보 연관 단어 각각에 대한 빈도수를 계산하는 단계; 상기 후보 연관 단어 각각을 추가 검색 단어로 하여 상기 계산하는 단계 내지 상기 저장하는 단계를 재귀적 방식으로 수행하는 단계; 및 상기 계산된 빈도수에 기초하여 상기 검색 단어와 상기 후보 연관 단어들 각각의 연관성을 계산하고, 상기 계산된 연관성에 기초하여 상기 검색 단어를 추출하는 단계를 포함하는 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템에 대하여 개시한다.
상기 선행기술 또는 공지의 빅 데이터의 검색 방법은 무작위로 동일성에 기초하여 검색을 하고 이후 검색된 결과로부터 특징 또는 연관성에 기초하여 검색하는 것에 의하여 검색 결과에 사용자의 의사가 반영되기 어렵다는 단점을 가진다. 이로 인하여 반복적인 검색 또는 검색 엔진에 따라 서로 다른 결과의 방지가 어렵다는 단점을 가진다.
본 발명은 선행기술의 문제점을 해결하기 위한 것으로 아래와 같은 목적을 가진다.
선행기술 1: 특허공개번호 제10-2016-0030996호(마이크로소프트 테크놀로지 라이센싱 LLC, 2016년03월21일 공개) 컴퓨터-인간 대화형 학습에서의 대화형 세그먼트 추출 선행기술 2: 특허등록번호 제10-1651780호(한양대학교 에리카 산학협력단, 2016년08월29일 공고) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
본 발명의 목적은 각각의 단어에 미리 고유 값을 부여하여 서로 다른 단어가 고유 값에 의하여 연관되어 검색되도록 하는 것에 의하여 사용자의 의사와 일치하는 결과가 도출되도록 하면서 이와 동시에 검색 효율성이 향상되도록 하는 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템을 제공하는 것이다.
본 발명의 적절한 실시 형태에 따르면, 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템은 빅 데이터 서버와 능동적인 방식으로 연결되어 작동하는 인공지능 엔진에 의하여 언어를 탐색하는 언어 탐색 시스템에 있어서, 각각의 단어에 고유 값을 설정하는 단어 고유 값 설정 유닛; 고유 값에 기초하여 각각의 단어의 분류그룹을 결정하는 분류 그룹 형성 유닛; 및 각각의 분류 그룹 형성 유닛의 대표 언어를 결정하는 대표 표시 결정 유닛을 포함하고, 인공지능 엔진은 각각의 단어에 부여된 고유 값에 기초하여 자료를 검색한다.
본 발명의 다른 적절한 실시 형태에 따르면, 단어의 고유 값의 설정을 위하여 단어의 사전 의미를 결정하는 의미 검색 유닛; 및 단어가 사용되는 상황 정보를 부여하는 상황 분류 유닛을 포함한다.
본 발명의 또 다른 적절한 실시 형태에 따르면, 단어에 단어가 포함될 수 있는 분류그룹과 관련된 값이 상속되도록 하는 고유 값 상속 유닛을 더 포함한다.
본 발명에 따른 언어 탐색 시스템은 각각의 단어에 고유 값을 부여하여 서로 연관시키는 것에 의하여 사용자의 다양한 의사에 따른 검색이 이루어지도록 한다. 본 발명에 따른 언어 탐색 시스템은 빅 데이터에 기초하여 단어의 고유 값이 부여되면서 이에 기초하여 검색이 이루어지는 것에 의하여 각각의 단어가 가진 다양한 의미가 파악되도록 한다. 또한 이에 의하여 빅 데이터에 대한 검색이 효율적으로 이루어지도록 한다. 추가로 본 발명에 따른 언어 탐색 시스템은 서로 다른 분류그룹에 속하는 공통 인자를 통하여 서로 다른 단어를 연결시키는 것에 의하여 단어의 다양한 의미 파악이 가능해지도록 한다.
도 1은 본 발명에 따른 언어 탐지 시스템에서 단어에서 단어에 고유 값이 부여되는 구조의 실시 예를 도시한 것이다.
도 2는 본 발명에 따른 언어 탐지 시스템에서 단어가 소속되는 분류그룹이 설정되는 구조의 실시 예를 도시한 것이다.
도 3은 본 발명에 따른 언어 탐지 시스템에서 서로 다른 분류그룹에 공통적으로 속할 수 있는 단어의 분류그룹이 결정되는 구조의 실시 예를 도시한 것이다.
도 4는 본 발명에 따른 언어 탐지 시스템에서 고유 값을 가진 단어에 의하여 언어 탐색이 진행되는 과정의 실시 예를 도시한 것이다.
아래에서 본 발명은 첨부된 도면에 제시된 실시 예를 참조하여 상세하게 설명이 되지만 실시 예는 본 발명의 명확한 이해를 위한 것으로 본 발명은 이에 제한되지 않는다. 아래의 설명에서 서로 다른 도면에서 동일한 도면 부호를 가지는 구성요소는 유사한 기능을 가지므로 발명의 이해를 위하여 필요하지 않는다면 반복하여 설명이 되지 않으며 공지의 구성요소는 간략하게 설명이 되거나 생략이 되지만 본 발명의 실시 예에서 제외되는 것으로 이해되지 않아야 한다.
도 1은 본 발명에 따른 언어 탐지 시스템에서 단어에서 단어에 고유 값이 부여되는 구조의 실시 예를 도시한 것이다.
도 1을 참조하면, 빅 데이터 서버(BD)와 능동적인 방식으로 연결되어 작동하는 인공지능 엔진(AE)에 의하여 언어를 탐색하는 언어 탐색 시스템은 각각의 단어에 고유 값을 설정하는 단어 고유 값 설정 유닛(11); 고유 값에 기초하여 각각의 단어의 분류그룹을 결정하는 분류 그룹 형성 유닛(12); 및 각각의 분류 그룹 형성 유닛(12)의 대표 언어를 결정하는 대표 표시 결정 유닛(13)을 포함하고, 인공지능 엔진(AE)은 각각의 단어에 부여된 고유 값에 기초하여 자료를 검색한다.
빅 데이터는 데이터의 양이 대규모(Volume)가 되고; 다양한 형태로 다양한 공급 경로를 통하여 공급되고(Variety); 그리고 생성 속도, 이동 속도 또는 분석 속도가 빠른(Velocity) 데이터 또는 이와 유사한 형태의 데이터를 의미하지만 이에 제한되지 않는다. 그리고 인공지능 엔진(AE)은 사용자와 상호 작용하면서 능동적으로 요구되는 작업을 진행할 수 있는 컴퓨터 프로그램 또는 이러한 컴퓨터 프로그램이 설치된 하드웨어를 포함하지만 이에 제한되지 않는다.
본 명세서에서 단어는 문자, 숫자, 도안, 문양, 기호 또는 이와 유사한 인지될 수 있는 또는 인지될 수 있도록 만들어진 모든 표시를 포함할 수 있다. 또한 언어에 따라 동일한 표시가 서로 다른 음성 패턴을 가지는 경우 서로 다른 의미를 가지는 것으로 분류되거나 별도로 아래에서 설명되는 고유 값이 독립적으로 부여될 수 있다. 이러한 표시는 예를 들어 키보드, 마우스, 이미지 입력 수단, 음성 입력 또는 다른 적절한 방법으로 위에서 설명된 프로그램이 작동되는 하드웨어로 또는 인공지능 엔진(AE)으로 입력될 수 있다. 그리고 이러한 표시에 대하여 각각 고유 값이 부여될 수 있다. 고유 값은 다양한 형태를 가질 수 있지만 바람직하게 연속되는 일련의 숫자로 표시될 수 있고, 단어의 고유 값은 고유 값 데이터베이스(17)에 저장될 수 있다. 그리고 단어는 인공지능 엔진(AE)에 의하여 고유 값으로 인지되고, 고유 값에 기초하여 검색, 분석 및 결과를 도출하게 된다. 고유 값은 단어 자체가 컴퓨터로 입력되는 경우 인지되는 이진 표시와 구별되는 단어의 다양한 속성을 나타내는 값이 될 수 있다.
단어의 고유 값은 하나의 단어를 기초로 관련성을 가지는 단어 사이의 연관성에 의하여 부여될 수 있다. 고유 값은 다수 자리의 수로 이루어질 수 있고, 각각의 자리는 단어와 단어 사이의 연관성을 나타낼 수 있다. 단어의 고유 값이 결정되면 고유 값은 단어와 함께 고유 값 데이터베이스(17)에 저장될 수 있다. 그리고 단어 또는 단어를 포함하는 문장이 입력되면 인공지능 엔진(AE)은 고유 값 데이터베이스(17)를 참조하여 단어의 고유 값을 참조할 수 있다. 이후 단어의 고유 값을 참조하여 사용자에 의하여 입력된 단어의 정확한 의미 또는 사용자에 의하여 입력된 단어의 문장에서 정확한 의미를 분석하고 이에 따라 빅 데이터 서버(BD)에서 검색할 수 있다.
각각의 단어는 적어도 하나의 분류그룹에 속할 수 있고, 단어에 속하는 분류그룹의 형성은 분류 그룹 형성 유닛(12)에 의하여 생성될 수 있다. 각각의 단어는 적어도 하나의 분류그룹에 속할 수 있다. 분류그룹은 단어를 특성에 따라 분류한 집합에 해당하고, 하나의 단어의 다수 개의 분류그룹을 가질 수 있다. 또한 분류그룹 자체가 계층 구조를 가질 수 있고, 예를 들어 하나의 분류그룹은 다수 개의 서브 분류그룹을 가질 수 있다. 분류그룹은 예를 들어 명사, 부사, 동사, 형용사, 전치사 또는 조사와 같은 품사에 따른 분류; 부정, 긍정 또는 모호와 같은 태도에 따른 분류; 숫자, 문자, 기호, 로고 또는 도안과 같은 단어의 형태에 따른 분류; 표준어, 사투리, 저속어 또는 특수한 상황에서 사용되는 약어와 같은 사용 환경 특성에 따른 분류와 같은 다양한 분류를 포함할 수 있다. 그리고 이와 같은 분류는 숫자로 표시되어 단어 고유 값의 하나가 될 수 있다.
하나의 분류그룹은 다수 개의 단어를 포함할 수 있고, 하나의 분류그룹에 속하는 다수 개의 단어를 대표하는 대표 표시가 대표 표시 결정 유닛(13)에 의하여 결정될 수 있다. 대표 표시 결정 유닛(13)은 각각의 분류그룹의 대표 표시를 결정할 수 있고, 대표 표시에 의하여 분류 그룹이 나누어질 수 있다. 대표 표시는 예를 들어 그룹에 속하는 단어의 특성, 다른 분류그룹과 연관성 또는 서브 그룹의 포함 여부에 대한 표시를 가질 수 있다.
하나의 단어에 대한 고유 값이 결정되면 연관 단어에 대한 고유 값은 분류 그룹으로 해당 값을 상속하는 방법으로 고유 값이 결정될 수 있다. 두 개의 단어가 유사한 의미를 가지면서 서로 다른 상황에서 사용된다면 연관 단어 유닛(14)에 의하여 연관 단어로 선택될 수 있다. 연관 단어는 예를 들어 사전에 유사어로 표시된 단어가 될 수 있다. 연관 단어가 선택되면 의미를 기준으로 분류된 분류그룹으로부터 해당 고유 값이 상속될 수 있다. 고유 값 상속 유닛(15)은 연관 단어의 연관성을 기준으로 분류 그룹을 탐색하여 상속되어야 하는 고유 값을 탐색할 수 있다. 연관성에 따라 적어도 하나의 분류그룹으로부터 고유 값이 연관 단어로 상속될 수 있다. 이와 같이 연관 단어에 대한 고유 값이 상속이 되면 연관 단어에 대한 나머지 고유 값은 연관 단어 고유 값 결정 유닛(16)에 의하여 결정될 수 있다. 이와 같은 방법으로 연관 단어에 대한 고유 값이 모두 결정되면 연관 단어를 나타내는 대표 표시가 대표 표시 결정 유닛(13)에 의하여 결정될 수 있다. 또는 분류 그룹 형성 유닛(12)에 의하여 분류 그룹이 형성될 수 있다. 이와 같은 방법으로 연관 단어에 대한 고유 값이 결정되면 고유 값 데이터베이스(17)에 저장될 수 있다. 연관 단어 유닛(14)은 하나의 단어에 대한 고유 값을 결정하는 과정을 간단하게 하면서 연관성을 가지는 서로 다른 단어가 공통 인자를 가지도록 한다. 그러므로 연관 단어에 대한 고유 값이 결정되면 일반 단어와 구별되지 않는다.
위에서 설명된 방법에 따라 단어 또는 표시에 대한 고유 값이 결정되면 고유 값 데이터베이스(17)에 저장되고, 인공지능 엔진(AE)은 고유 값을 통하여 입력되는 단어를 인식하게 된다. 그리고 필요에 따라 입력된 단어 자체가 사용자가 표시하고자 하는 의미에 해당하는지 여부를 사용자와 상호 작용에 의하여 탐색할 수 있다.
도 2는 본 발명에 따른 언어 탐지 시스템에서 단어가 소속되는 분류그룹이 설정되는 구조의 실시 예를 도시한 것이다.
도 2를 참조하면, 고유 값이 부여되는 단어가 임의로 선택될 수 있고, 선택된 단어에 대하여 의미가 의미 검색 유닛(21)에 의하여 검색될 수 있다. 의미 검색 유닛(21)은 예를 들어 인공지능 엔진에 포함될 수 있고, 기본적으로 사전 의미를 검색할 수 있다. 사전 의미가 검색되지 않는 경우 위에서 설명된 빅 데이터 서버에서 사용 예를 참조하여 의미를 검색할 수 있다. 의미 검색 유닛(21)은 기본적으로 품사에 기초하여 의미를 검색한다. 예를 들어 단어가 명사에 해당하면 동일한 의미를 가지는 명사 또는 유사한 의미를 가지는 명사를 기준으로 의미를 검색한다. 다만 품사가 결정되지 않는 도안 또는 기호의 경우 독립적으로 분류가 될 수 있고, 이에 따른 고유 값을 가질 수 있다. 이와 같은 방법으로 검색된 단어는 단어 그룹 유닛(22)으로 전송될 수 있고, 단어 그룹 유닛(22)은 전송된 단어를 동일, 유사, 반의, 방언 또는 이와 유사한 형태로 나누어 분류할 수 있고, 각각 동일 그룹(231), 유사 그룹(232) 또는 반의 그룹(233)으로 분류할 수 있다. 동일 그룹(231), 유사 그룹(232) 또는 반의 그룹(233)에 분류된 단어는 다수 개의 숫자로 이루어진 고유 값의 동일 위치에 동일 숫자로 표기되거나 부호 또는 서브 부호를 가진 숫자로 표시될 수 있다. 그리고 인공지능 엔진(AE)으로 전송될 수 있고, 인공지능 엔진(AE)은 부여된 고유 값에 기초하여 빅 데이터 서버(BD) 또는 고유 값 데이터베이스를 검색하여 입력된 단어 또는 검색된 단어에 부여된 고유 값이 정확성 여부가 결정될 수 있고, 그에 따라 단어 고유 값 설정 유닛(25)에 의하여 단어 또는 검색된 단어에 대한 고유 값이 결정될 수 있다. 검색된 단어는 위에서 설명된 연관 단어가 될 수 있고, 단어 고유 값 설정 유닛(25)에 의하여 연관 단어에 대한 고유 값이 결정될 수 있다. 단어 고유 값 설정 유닛(25)에 의하여 상황 분류 유닛(24)에 의하여 결정되는 고유 값을 가질 수 있다. 구체적으로 상황 분류 유닛(24)은 단어 및 검색된 단어의 분위기 또는 상황을 결정할 수 있고, 그에 따라 단어에 분위기 또는 사용 상황에 따른 고유 값이 결정될 수 있다. 이에 의하여 입력된 단어와 검색된 단어는 분류를 위한 고유 값의 일부를 가지게 되고, 고유 값의 일부는 하나의 동일 수치와 서로 다른 수치를 가지게 된다. 이와 같은 방식으로 단어에 대한 고유 값이 결정되면 단어가 속하는 분류그룹(26)이 결정될 수 있다.
단어의 고유 값은 다양한 방법으로 결정될 수 있고 제시된 실시 예에 제한되지 않는다.
도 3은 본 발명에 따른 언어 탐지 시스템에서 서로 다른 분류그룹에 공통적으로 속할 수 있는 단어의 분류그룹이 결정되는 구조의 실시 예를 도시한 것이다.
도 3을 참조하면, 단어의 고유 값은 다수 개의 분류그룹(311 내지 31N)으로부터 고유 값을 상속을 받을 수 있다. 입력되는 단어에 대하여 고유 값을 결정하기 위하여 인공지능 엔진(AE)에 의하여 단어의 속성이 결정될 수 있다. 단어의 속성은 이미 결정되어 있거나 결정되어 있지 않을 수 있고, 인공지능 엔진(AE)은 빅 데이터 서버(BD) 또는 고유 값 데이터베이스(17)를 검색하여 고유 값을 확인하거나 또는 고유 값의 부여를 부여할 수 있다. 만약 고유 값이 부여되지 않은 상태라면, 입력된 단어의 속성이 검색될 수 있다. 그리고 속성이 탐색되면 인공지능 엔진(AE)은 다수 개의 분류그룹(311 내지 31N)으로부터 속성의 상속 여부를 결정할 수 있고, 고유 값 상속 유닛(32)에 의하여 상속 여부가 결정될 수 있다. 고유 값 상속 유닛(32)은 또한 상황 결정 유닛(33)으로부터 입력된 단어에 대한 속성 정보가 정확성 여부를 확인할 수 있다. 그리고 입력된 단어에 대하여 고유 값 설정 유닛(11)에 의하여 결정되거나 고유 값이 수정될 수 있다. 이후 고유 값이 결정된 단어 또는 고유 값이 수정된 단어에 대하여 분류그룹 결정 유닛(34)에 의하여 분류 그룹이 결정될 수 있다. 그리고 분류그룹이 결정되면 사용자가 입력한 의도에 따라 검색이 이루어지고, 검색 결과가 고유 속성이 일치하는 수준에 따라 분석되어 제공될 수 있다.
단어는 독립적으로 입력되거나 문장 또는 구에 포함된 형태로 입력될 수 있고, 단어가 문장 또는 구에 포함되어 입력되면 각각이 단어 단위로 분리되어 고유 값이 결정되거나, 고유 값이 탐색될 수 있다.
도 4는 본 발명에 따른 언어 탐지 시스템에서 고유 값을 가진 단어에 의하여 언어 탐색이 진행되는 과정의 실시 예를 도시한 것이다.
도 4를 참조하면, 문장 또는 구가 입력되면, 단어 분리 유닛(41)에 의하여 단어 단위로 분리될 수 있고, 각각의 단어에 대하여 고유 값 추출 유닛(42)에 의하여 고유 값이 추출될 수 있다. 고유 값 추출 유닛(42)은 고유 값이 이미 설정된 단어와 고유 값이 설정되지 않은 단어를 구분하여 검색 값 결정 유닛(43)으로 전송할 수 있다. 검색 값 결정 유닛(43)은 고유 값은 고유 값이 결정된 단어의 고유 값을 추출하면서 고유 값이 결정되지 않은 단어는 별도로 분류하여 인공지능 엔진(AE)으로 전송할 수 있다. 인공지능 엔진(AE)은 고유 값이 결정되어야 하는 단어에 대하여 위에서 설명된 방법에 따라 고유 값을 설정할 수 있다. 이와 같은 방법으로 입력된 모든 단어에 대하여 고유 값을 설정할 수 있고, 필요에 따라 사용자와 상호 작용을 통하여 입력된 단어의 속성을 탐색할 수 있다. 이를 위하여 입력된 단어 전부에 대하여 빅 데이터 서버(BD) 또는 다른 서버를 검색하여 사용자의 입력에 해당하는 결과를 검색할 수 있다. 검색 결과가 고유 값 리스트 유닛(44)으로 전송될 수 있고, 고유 값 리스트 유닛(44)은 고유 값의 일치 수준에 따라 검색 결과를 나열할 수 있다. 이후 고유 값의 일치 수준에 따라 나열된 검색 결과는 매칭 탐색 유닛(47)으로 전송될 수 있고, 매칭 탐색 유닛(47)은 고유 값의 일치 수준에 따라 검색 결과를 분류할 수 있다. 그리고 매칭 결정 유닛(45)에 의하여 사용자의 검색 의도와 일치하는 검색 결과를 결정할 수 있다.
검색 과정에서 고유 값이 수정되어야 하는 단어 또는 새로 고유 값이 결정되어야 하는 단어가 고유 값 수정 유닛(46)에 의하여 결정될 수 있다. 그리고 수정되거나, 새로이 설정된 고유 값을 가지는 단어가 분류그룹 결정 유닛(34)으로 전송될 수 있고, 위에서 설명된 것과 같은 방법에 따라 단어의 분류그룹이 결정될 수 있다.
본 발명에 따른 언어 탐색 시스템은 각각의 단어에 고유 값을 부여하여 서로 연관시키는 것에 의하여 사용자의 다양한 의사에 따른 검색이 이루어지도록 한다. 본 발명에 따른 언어 탐색 시스템은 빅 데이터에 기초하여 단어의 고유 값이 부여되면서 이에 기초하여 검색이 이루어지는 것에 의하여 각각의 단어가 가진 다양한 의미가 파악되도록 한다. 또한 이에 의하여 빅 데이터에 대한 검색이 효율적으로 이루어지도록 한다. 추가로 본 발명에 따른 언어 탐색 시스템은 서로 다른 분류그룹에 속하는 공통 인자를 통하여 서로 다른 단어를 연결시키는 것에 의하여 단어의 다양한 의미 파악이 가능해지도록 한다.
위에서 본 발명은 제시된 실시 예를 참조하여 상세하게 설명이 되었지만 이 분야에서 통상의 지식을 가진 자는 제시된 실시 예를 참조하여 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다양한 변형 및 수정 발명을 만들 수 있을 것이다. 본 발명은 이와 같은 변형 및 수정 발명에 의하여 제한되지 않으며 다만 아래에 첨부된 청구범위에 의하여 제한된다.
11: 단어 고유 값 설정 유닛 12: 분류 그룹 형성 유닛
13: 대표 표시 결정 유닛 14: 연관 단어 유닛
15: 고유 값 상속 유닛 16: 연관 단어 고유 값 결정 유닛
17: 고유 값 데이터베이스 21: 의미 검색 유닛
22: 단어 그룹 유닛 24: 상황 분류 유닛
25: 단어 고유 값 설정 유닛 26: 분류그룹
32: 고유 값 상속 유닛 33: 상황 결정 유닛
34: 분류그룹 결정 유닛 41: 단어 분리 유닛
42: 고유 값 추출 유닛 43: 검색 값 결정 유닛
44: 고유 값 리스트 유닛 45: 매칭 결정 유닛
46: 고유 값 수정 유닛 47: 매칭 탐색 유닛
231: 동일 그룹 232: 유사 그룹
233: 반의 그룹 311, 312, 31N: 분류그룹
AE: 인공지능 엔진 BD: 빅 데이터 서버

Claims (3)

  1. 빅 데이터 서버(BD)와 능동적인 방식으로 연결되어 작동하는 인공지능 엔진(AE)에 의하여 언어를 탐색하는 언어 탐색 시스템에 있어서,
    각각의 단어에 고유 값을 설정하는 단어 고유 값 설정 유닛(11);
    고유 값에 기초하여 각각의 단어의 분류그룹을 결정하는 분류 그룹 형성 유닛(12); 및
    각각의 분류 그룹 형성 유닛(12)의 대표 언어를 결정하는 대표 표시 결정 유닛(13)을 포함하고,
    인공지능 엔진(AE)은 각각의 단어에 부여된 고유 값에 기초하여 자료를 검색하는 것을 특징으로 하는 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템.
  2. 청구항 1에 있어서, 단어의 고유 값의 설정을 위하여 단어의 사전 의미를 결정하는 의미 검색 유닛(21); 및 단어가 사용되는 상황 정보를 부여하는 상황 분류 유닛(24)을 포함하는 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템.
  3. 청구항 1에 있어서, 단어에 단어가 포함될 수 있는 분류그룹과 관련된 값이 상속되도록 하는 고유 값 상속 유닛(32)을 더 포함하는 빅 데이터 기반의 언어 탐색 시스템.
KR1020170013525A 2017-01-31 2017-01-31 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템 KR20180089011A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170013525A KR20180089011A (ko) 2017-01-31 2017-01-31 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170013525A KR20180089011A (ko) 2017-01-31 2017-01-31 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180144551A Division KR20180127294A (ko) 2018-11-21 2018-11-21 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템

Publications (1)

Publication Number Publication Date
KR20180089011A true KR20180089011A (ko) 2018-08-08

Family

ID=63230018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170013525A KR20180089011A (ko) 2017-01-31 2017-01-31 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템

Country Status (1)

Country Link
KR (1) KR20180089011A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111395A1 (ko) * 2018-11-26 2020-06-04 (주) 위세아이텍 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160030996A (ko) 2013-07-12 2016-03-21 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 컴퓨터-인간 대화형 학습에서의 대화형 세그먼트 추출
KR101651780B1 (ko) 2015-04-15 2016-08-29 한양대학교 에리카산학협력단 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160030996A (ko) 2013-07-12 2016-03-21 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 컴퓨터-인간 대화형 학습에서의 대화형 세그먼트 추출
KR101651780B1 (ko) 2015-04-15 2016-08-29 한양대학교 에리카산학협력단 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111395A1 (ko) * 2018-11-26 2020-06-04 (주) 위세아이텍 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법

Similar Documents

Publication Publication Date Title
US11816441B2 (en) Device and method for machine reading comprehension question and answer
US10282389B2 (en) NLP-based entity recognition and disambiguation
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US11210468B2 (en) System and method for comparing plurality of documents
Tiun et al. Automatic topic identification using ontology hierarchy
Varma et al. IIIT Hyderabad at TAC 2009.
Anita et al. An approach to cluster Tamil literatures using discourse connectives
US20100205198A1 (en) Search query disambiguation
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
EP3210130A2 (en) Data clustering system, methods, and techniques
EP3210128A1 (en) Data clustering system and methods
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
US20220114340A1 (en) System and method for an automatic search and comparison tool
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
US20150154265A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
CN110688559A (zh) 一种检索方法及装置
KR20180089011A (ko) 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템
KR20190087394A (ko) 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템
KR20180127294A (ko) 고유 값 구조의 빅 데이터 기반의 언어 탐색 시스템
El Idrissi et al. HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
CN115809334B (zh) 事件关联性分类模型的训练方法、文本处理方法及装置
Morsidi et al. Malay named entity recognition: a review
dos Santos Linking entities to wikipedia documents
Tongtep et al. Discovery of predicate-oriented relations among named entities extracted from thai texts

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
A107 Divisional application of patent