KR20150130214A - 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 - Google Patents

텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 Download PDF

Info

Publication number
KR20150130214A
KR20150130214A KR1020150015857A KR20150015857A KR20150130214A KR 20150130214 A KR20150130214 A KR 20150130214A KR 1020150015857 A KR1020150015857 A KR 1020150015857A KR 20150015857 A KR20150015857 A KR 20150015857A KR 20150130214 A KR20150130214 A KR 20150130214A
Authority
KR
South Korea
Prior art keywords
words
document
list
word
location information
Prior art date
Application number
KR1020150015857A
Other languages
English (en)
Other versions
KR101723862B1 (ko
Inventor
정인철
김재만
김현표
윤선민
윤초롱
이신태
장유진
지태창
Original Assignee
주식회사 엘지씨엔에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지씨엔에스 filed Critical 주식회사 엘지씨엔에스
Publication of KR20150130214A publication Critical patent/KR20150130214A/ko
Application granted granted Critical
Publication of KR101723862B1 publication Critical patent/KR101723862B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F17/2755
    • G06F17/277
    • G06F17/30011
    • G06F17/30643
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

문서 분류 및 분석 시스템은 프로세서, 적어도 하나의 저장 영역을 포함하는 메모리 및 실행될 때 상기 프로세서가 아래의 방법을 수행하도록 하는 명령어들을 포함하는 비일시적인 컴퓨터 판독 가능한 매체를 포함하고, 상기 방법은 복수의 단어들을 포함하는 문서를 수신하는 단계, 상기 문서에 대한 형태소 분석을 수행하여 상기 복수의 단어들의 원형을 추출하는 단계, 해당 품사를 기초로 상기 복수의 단어들을 태그하는 단계, 상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하는 단계, 적어도 하나의 어휘 목록을 상기 문서에 적용하여 상기 복수의 단어들 각각을 분류하는 단계 및 상기 위치 정보를 저장하는 단계를 포함한다.

Description

텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치{APPARATUS AND METHOD FOR CLASSIFYING AND ANALYZING DOCUMENTS INCLUDING TEXT}
텍스트를 포함하는 문서 분류 및 분석 기술에 관한 것으로서, 보다 구체적으로, 복수의 단어들의 어휘 특성 및 문서 내의 위치를 고려하여 문서를 분류 및 분석할 수 있는 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치에 관한 것이다.
텍스트를 포함하는 레코드 또는 문서를 분류하고 분석하는 기존 방법은 문서에서 단어 또는 용어의 빈도를 이용하여 키워드 또는 키워드를 결정한다. 문서는 주어진 단어들의 집합에서 빈번하게 나오는 단어들(예를 들어, 키워드)과 매칭하는 것을 통하여 분류 되거나 분석된다. 또한, 빈출 단어만을 사용하는 텍스트를 포함하는 문서를 분류하는 경우에는 단어 각각에 대한 빈도가 분리되어 계산되므로 단어들 사이의 상호관계를 찾기 힘들다.
본 발명의 일 실시예는 복수의 단어들 간의 상호관계를 기초로 질의 룰을 생성하여 문서를 분석할 수 있는 텍스트를 포함하는 문서 분류 및 분석 방법을 제공하고자 한다.
본 발명의 일 실시예는 텍스트 문서에 있는 단어의 순서에 따라 단어의 위치 정보를 결정하고 단어의 어휘 특성을 기초로 단어의 위치 정보를 저장 영역에 저장하여 단어를 분류할 수 있는 텍스트를 포함하는 문서 분류 및 분석 방법을 제공하고자 한다.
본 발명의 일 실시예는 텍스트 문서에 있는 복수의 단어들에 대한 위치들 간의 상호관계를 기초로 질의 룰을 생성하여 문서를 분석할 수 있는 텍스트를 포함하는 문서 분류 및 분석 방법을 제공하고자 한다.
실시예들 중에서, 문서 분류 및 분석 시스템은 프로세서, 적어도 하나의 저장 영역을 포함하는 메모리 및 실행될 때 상기 프로세서가 아래의 방법을 수행하도록 하는 명령어들을 포함하는 비일시적인 컴퓨터 판독 가능한 매체를 포함하고, 상기 방법은 복수의 단어들을 포함하는 문서를 수신하는 단계, 상기 문서에 대한 형태소 분석을 수행하여 상기 복수의 단어들의 원형을 추출하는 단계, 해당 품사를 기초로 상기 복수의 단어들을 태그하는 단계, 상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하는 단계, 적어도 하나의 어휘 목록을 상기 문서에 적용하여 상기 복수의 단어들 각각을 분류하는 단계 및 상기 위치 정보를 저장하는 단계를 포함한다.
일 실시예에서, 상기 복수의 단어들의 상기 위치 정보는 상기 메모리에 있는 복수의 저장 영역들 중 적어도 하나의 영역에 저장되고, 상기 적어도 하나의 저장 영역은 상기 적어도 하나의 어휘 목록 각각 대응할 수 있다.
일 실시예에서, 상기 적어도 하나의 어휘 목록은 품사 태그 목록(part-of-speech tag list), 감성 어휘 목록(sentimental word list), 키워드 목록(keyword list) 및 인버스 단어 목록(inverse word list) 중 적어도 하나를 포함할 수 있고, 상기 키워드 목록은 적어도 하나의 섹션(상기 각각의 섹션은 특정 분야에 대응함)을 포함하고, 상기 각각의 섹션에 있는 복수의 키워드들은 상기 해당 분야와 연관된 유효한 리소스(resource)들을 기초로 생성될 수 있다.
일 실시예에서, 상기 위치 정보를 결정하는 단계는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들에 순차적인 번호를 적용하는 단계를 더 포함하고, 상기 복수의 단어들 각각의 위치 정보는 해당 단어에 적용된 순차적인 번호를 포함할 수 있다.
일 실시예에서, 상기 비일시적인 컴퓨터 판독 가능한 매체는 실행될 때 상기 프로세서가 적어도 하나의 질의 룰(query rule)을 복수의 단어들을 포함하는 적어도 하나의 문서에 적용하는 단계, 상기 적어도 하나의 문서가 상기 질의 룰을 만족하는지 여부를 결정하는 단계 및 상기 적어도 하나의 문서가 상기 질의 룰을 만족하는지 여부에 대한 결정의 결과를 포함하는 문서 분석 결과를 출력하는 단계를 수행하도록 하는 명령어를 더 포함하고, 상기 적어도 하나의 질의 룰은 상기 메모리에 저장된 상기 복수의 단어들의 위치 정보를 사용하는 상기 문서에 적용될 수 있다.
일 실시예에서, 상기 적어도 하나의 문서에 적용되는 상기 적어도 하나의 어휘 목록 및 상기 적어도 하나의 질의 룰 중 임의의 하나는 상기 문서 분석 결과를 기초로 갱신되고, 상기 적어도 하나의 질의 룰은 적어도 하나의 논리 연산자(Boolean operator) 및 적어도 하나의 타깃 단어(target word)를 포함하며, 상기 적어도 하나의 질의 룰은 복수의 타깃 단어들의 위치 정보를 기초로 상기 복수의 타깃 단어들 간의 상호관계에 의하여 정의될 수 있다.
실시예들 중에서, 문서 분류 및 분석 방법은 복수의 단어들을 포함하는 문서를 수신하는 단계, 상기 문서에 대한 형태소 분석을 수행하여 상기 복수의 단어들의 원형을 추출하는 단계, 해당 품사를 기초로 상기 복수의 단어들을 태그하는 단계, 상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하는 단계, 적어도 하나의 어휘 목록을 상기 문서에 적용하여 상기 복수의 단어들 각각을 분류하는 단계 및 상기 위치 정보를 상기 복수의 단어들의 분류를 기초로 저장부에 저장한다.
일 실시예에서, 상기 위치 정보를 결정하는 단계는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들에 순차적인 번호를 적용하는 단계를 더 포함하고, 상기 복수의 단어들 각각의 위치 정보는 해당 단어에 적용된 순차적인 번호를 포함할 수 있다.
일 실시예에서, 상기 위치 정보를 저장하는 단계는 상기 복수의 단어들의 위치 정보를 상기 저장부에 있는 적어도 하나의 저장 영역에 저장하는 단계를 포함하고 상기 적어도 하나의 저장 영역은 상기 적어도 하나의 어휘 목록 각각에 대응할 수 있다.
일 실시예에서, 적어도 하나의 질의 룰을 상기 복수의 문서들에 적용하여 상기 복수의 문서들 각각이 상기 복수의 질의 룰들을 각각 만족하는지 여부를 결정하는 단계 및 복수의 문서 분석 결과들로서 상기 결정의 결과를 출력하는 단계를 더 포함할 수 있다.
실시예들 중에서, 컴퓨터가 문서 분류 및 분석을 수행하도록 하는 컴퓨터 프로그램을 포함하는 비일시적인 컴퓨터 판독 가능한 매체에 있어서, 상기 컴퓨터 판독 가능한 매체는 복수의 단어들을 포함하는 문서를 수신하기 위한 코드, 상기 복수의 단어들의 원형을 추출하기 위한 코드, 해당 품사를 기초로 상기 복수의 단어들을 각각 태그하기 위한 코드, 상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하기 위한 코드, 상기 문서에 적어도 하나의 어휘 목록을 적용하여 상기 복수의 단어들을 분류하기 위한 코드, 상기 복수의 단어들의 분류를 기초로 상기 위치 정보를 저장하기 위한 코드, 상기 문서를 포함하는 복수의 문서들에 대한 적어도 하나의 질의 룰을 적용하기 위한 코드, 상기 복수의 문서들 중에서 상기 질의 룰을 각각 만족하는 문서를 결정하기 위한 코드 및 상기 결정된 문서로부터 선택된 문서를 출력하기 위한 코드를 포함한다.
본 발명의 일 실시예에 따른 텍스트를 포함하는 문서 분류 및 분석 방법은 복수의 단어들 간의 상호관계를 기초로 질의 룰을 생성하여 문서를 분석할 수 있다.
본 발명의 일 실시예에 따른 텍스트를 포함하는 문서 분류 및 분석 방법은 텍스트 문서에 있는 단어의 순서에 따라 단어의 위치 정보를 결정하고 단어의 어휘 특성을 기초로 단어의 위치 정보를 저장 영역에 저장하여 단어를 분류할 수 있다.
본 발명의 일 실시예에 따른 텍스트를 포함하는 문서 분류 및 분석 방법은 텍스트 문서에 있는 복수의 단어들에 대한 위치들 간의 상호관계를 기초로 질의 룰을 생성하여 문서를 분석할 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 시스템을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 서버를 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 서버의 작동을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 텍스트 문서 분류를 위하여 사용되는 어휘 목록의 논리 형태를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 텍스트 문서에 포함된 복수의 단어들의 위치 정보를 저장하는 복수의 저장 영역의 논리 형태를 나타낸다.
도 6은 본 발명의 일 실시에에 따른 텍스트 문서 분석을 위하여 사용되는 분석 카테고리 테이블의 논리 형태를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 텍스트 분류 및 분석 서버의 하드웨어 구성을 나타낸다.
도 8은 본 발명의 일 실시예에 따른 텍스트 문서 분류 방법을 나타내는 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 텍스트 문서 분석 방법을 나타내는 흐름도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 타깃 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
실시예들은 복수의 단어들 또는 텍스트를 포함하는 복수의 문서들을 분류 및 분석하기 위한 시스템들 및 방법들을 나타낸다. 여기에서, 복수의 문서들은 “복수의 텍스트 문서들”로 언급될 것이다. 그러나, 이 용어는 본 발명을 한정하기 위하여 사용 되는 것은 아니며, 단순히 적어도 하나의 단어를 포함하는 어떠한 문서라도 해당된다. 예를 들어, “복수의 텍스트 문서들”은 수치, 그래픽적인 표현 또는 이와 같은 다른 정보를 포함하는 문서들을 제외하는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 시스템을 나타낸다.
텍스트 문서 분류 및 분석 시스템(100)은 복수의 텍스트 문서 리소스들(110), 텍스트 문서 분류 및 분석 서버(120) 및 네트워크(130)를 포함한다. 텍스트 문서 분류 및 분석 서버(120)는 네트워크(130)를 통하여 복수의 텍스트 문서 리소스들(110)과 통신한다.
텍스트 문서 분류 및 분석 서버(120)는 복수의 텍스트 문서 리소스들(110)로부터 복수의 텍스트 문서들을 수집한다. 예를 들어, 복수의 텍스트 문서 리소스들(110)은 WWW(World Wide Web), 의학 또는 법적인 문서들과 같은 전문적인 문서들에 대한 데이터베이스, e-메일 서비스 제공자 또는 SNS(Social Network Service) 제공자에 해당할 수 있다. 네트워크(130)는 무선 또는 유선 통신 네트워크를 포함할 수 있다.
텍스트 문서 분류 및 분석 서버(120)는 텍스트 문서 안에서 텍스트 용어들(또는, 단어)을 분류한다. 복수의 단어들 간의 구조적인 상호관계는 텍스트 문서에 있는 복수의 단어들의 순서를 기초로, 예를 들어, 첫 번째 단어가 두 번째 단어에 선행하는지 여부 및 첫 번째 단어와 두 번째 단어 사이의 거리가 미리 정해진 범위 안에 있는지 여부가 포함된다.
일 실시예에서, 텍스트 문서 분류 및 분석 서버(120)는 단어 순서를 결정하기 위하여 텍스트 문서에서 해당 단어가 나타나는 순서에 따라 순차적으로 복수의 단어들에 번호들을 적용하고 위치 정보로서 해당 단어에 매겨진 순차적인 번호들을 저장 영역들에 저장한다.
또한, 텍스트 문서 분류 및 분석 서버(120)는 복수의 단어들의 어휘 특성 또는 복수의 단어들 간의 구조적인 상호관계에 기초하여 질의 룰들을 생성하고 원하는 텍스트 문서를 찾기 위하여 질의 룰들을 사용하여 텍스트 문서를 분석한다. 일 실시예에서, 복수의 단어들의 어휘 특성들은 단어 각각의 품사를 포함할 수 있고, 각각의 단어가 감성 단어인지 여부, 각각의 단어가 키워드인지 여부 및 각각의 단어가 문서 분석에 유용한 단어인지 여부를 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 서버를 나타내는 블록도이다.
텍스트 문서 분류 및 분석 서버(120-1)는 네트워크(130)를 통하여 도 1의 복수의 텍스트 문서 리소스들(110)과 통신하고, 형태소 분석부(221), 어휘 특성 분석부(223), 질의 룰 적용부(225) 및 저장부(227)를 포함한다.
텍스트 문서 분류 및 분석의 초기 단계에서, 어휘 목록들의 세트는 저장부(227)에 기록된다. 어휘 목록들의 세트는 품사 태그 목록, 감성 단어 목록, 각각의 영역 또는 분야에 대한 키워드 목록 및 인버스(inverse) 단어 목록을 포함할 수 있다.
품사 태그 목록에서, 태그는 언어의 품사에 따라 분류 되고, 언어는 예를 들어, 한국어, 영어에 해당할 수 있다. 예를 들어, 영어에서 태그들은 명사(noun), 동사(verb), 형용사(adjective), 부사(adverb) 및 접속사(conjunction)를 포함할 수 있다. 감성 단어 목록은 일반적으로 긍정, 부정 또는 중립의 감정들 또는 의견들을 나타내는 단어들(예를 들어, 좋다, 싫다, 그저 그렇다)을 포함할 수 있다. 인버스 단어 목록은 텍스트 문서 분석에 유용하지 않은 단어들을 포함할 수 있다. 인버스 단어 목록은 분석 범위를 제한하기 위하여 사용될 수 있다.
키워드 목록은, 예를 들어, 스포츠, 예술, 법학 분야, 의학 분야 및 음악 분야의 분석을 위하여 사용되는 기술적인 용어들을 포함할 수 있다. 일 실시예에서, 복수의 영역들 또는 분야들을 위한 키워드 목록이 있을 수 있다. 일 실시예에서, 키워드들은 영역 또는 분야에 따라 변경되기 때문에 키워드 목록은 복수의 영역들 또는 분야들 각각과 연관된 유효한 리소스들을 활용하여 만들어질 수 있다. 리소스들은 다양한 방법으로 유효하게 될 수 있다. 예를 들어, 리소스들은 전문가에 의한 평가를 받은 논문, 해당 분야의 전문가 또는 해당 분야의 주요한 문제와 연관되어 일반적으로 받아들여지는 권위자에 의한 논문에 해당할 수 있다. 사용자 또는 분석자는 직접적으로 키워드들을 키워드 목록에 추가하거나 또는 단어의 빈도를 계산하는 것과 같은 전통적인 키워드 추출 방법을 이용하여 키워드를 추출하고 추출된 키워드는 키워드 목록에 추가될 수 있다.
일 실시예에서, 어휘 목록들의 세트는 텍스트 문서 분류 및 분석의 초기 단계에서 등록되고, 본 발명은 실시예들에 제한되지 않는다. 다른 일 실시예에서, 어휘 목록들의 세트는 텍스트 문서 분류 및 분석이 수행되는 동안 계속적으로 갱신된다. 예를 들어, 새로운 키워드들은 키워드 목록에 추가될 것이고 기존에 존재하는 키워드들은 텍스트 문서 분석 결과들에 기초하여 키워드 목록으로부터 삭제될 것이다.
어휘 목록들의 세트의 등록 이후, 텍스트 문서가 텍스트 문서 분류 및 분석을 위하여 입력되는 경우에, 형태소 분석기(221)는 텍스트 문서에 포함된 복수의 단어들의 원형, 즉, 원형 단어를 복수의 단어들에 대한 형태소 분석을 수행하여 추출하고 복수의 단어들 각각을 저장부(227)에 저장되어 있는 품사 태그 목록을 이용하는 해당 품사에 기초하여 태그한다.
어휘 특성 분석기(223)는 텍스트 문서에 있는 복수의 단어들 각각에 대한 위치 정보를 결정하고 저장부(227)에 위치 정보를 저장한다. 일 실시예에서, 위치 정보는 복수의 단어들 각각에 적용된 순차적인 번호를 포함한다. 일 실시예에서, 순차적인 번호는 텍스트 문서에서 단어가 나타나는 순서를 기초로 적용된다.
단어의 위치 정보는 품사 태그 목록, 감성 단어 목록, 키워드 목록 및 인버스 단어 목록 중 해당 단어가 속하는 적어도 하나의 저장 영역에 저장된다. 즉, 어휘 특성 분석기(223)는 텍스트 문서에 있는 복수의 단어들 각각을 품사 태그 목록, 감성 단어 목록, 키워드 목록 및 인버스 단어 목록과 순차적으로 매칭하여 저장부(227)에 위치 정보를 저장한다. 매칭 과정은 아래에서 보다 상세하게 설명한다.
질의 룰 적용부(225)는 복수의 단어들의 어휘 특성 및 복수의 단어들 간의 구조적인 상호관계를 기초로 텍스트 문서 분석을 위한 질의 룰들을 생성하고 텍스트 문서에 분석 카테고리들로서 질의 룰들을 적용하여 텍스트 문서를 분석한다. 질의 룰들은 타깃 키워드(들), 특정 품사의 발생 및 복수의 단어들의 발생 순서를 조합하는 것에 의하여 생성될 수 있다. 일 실시예에서, 생성된 질의 룰들은 저장부(217)에 배치된 질의 룰 테이블에 저장된다. 일 실시예에서, 새로운 질의 룰들은 질의 룰 테이블에 존재하는 질의 룰들과 조합될 수 있다. 사용자 또는 분석자는 새로운 질의 룰들을 생성할 수 있고 텍스트 문서 분석 전에 또는 텍스트 문서 분석 동안에 기존에 존재하던 질의 룰을 삭제할 수 있다.
일 실시예에서, 질의 룰들이 생성된 이후에, 질의 룰 적용부(225)는 질의 룰들에 포함되어 있는 타깃 단어(들)를 텍스트 문서에 있는 복수의 단어들과 매치시킨다. 질의 룰 적용부(225)는 텍스트 문서를 분석하기 위하여 질의 룰들 및 저장부(227)에 저장되어 있는 복수의 단어들의 위치 정보를 사용한다. 예를 들어, 위치 정보를 사용하여 복수의 단어들의 빈도, 복수의 단어들의 순서 조합 및 복수의 단어들 간의 거리를 결정하는 것이 가능하다. 텍스트 문서의 분석 결과들은 매칭 결과(예를 들어, 텍스트 문서가 질의 룰들을 만족하는지 여부)에 기초하여 얻어진다.
도 3은 본 발명의 일 실시예에 따른 텍스트 문서 분류 및 분석 서버의 작동을 나타낸다.
복수의 단어들을 포함하는 텍스트 문서가 입력되는 경우에 형태소 분석부(221)는 원형 단어들을 추출하고 해당 품사에 기초하여 복수의 단어들의 원형 단어들 각각을 태그한다. 그리고 나서, 어휘 특성 분석부(223)는 텍스트 문서에 있는 단어 순서에 따라 복수의 단어들에 순차적으로 번호를 적용하여 복수의 단어들 각각의 위치 정보를 결정한다. 결과적으로, 예를 들어, 텍스트 문서에 포함되어 있는 w1부터 w17에 해당하는 복수의 단어들은 1부터 17에 해당하는 위치 정보를 가질 것이다.
어휘 특성 분석부(223)는 순차적으로 번호가 적용된 복수의 단어들을 어휘 목록들에 순차적으로 적용하고 복수의 단어들의 순차적인 번호들(예를 들어, 위치 정보)을 저장부(227)의 해당 저장 영역들에 저장한다. 여기에서, 어휘 목록은 미리 설정되어 있고 품사 태그 목록(223-1), 감성 단어 목록(223-2), 키워드 목록(223-3) 및 인버스 단어 목록(223-4)을 포함한다. 품사 태그 목록(223-1), 감성 단어 목록(223-2), 키워드 목록(223-3) 및 인버스 단어 목록(223-4)는 텍스트 문서 분류가 수행되기 전에 저장부(227)로부터 제공될 수 있다.
도 3을 참조하면, 10번째 단어인 w10은 긍정 단어뿐만 아니라 형용사로 확인된다. 따라서, 10번째 단어인 w10의 위치정보에 해당하는 '10'은 품사 태그 목록(223-1)에 대한 저장 테이블(227-1)에서 형용사 영역 및 감성 단어 목록(223-2)에 대한 저장 테이블(227-2)에서 긍정 단어 영역에 저장된다. 1번째 및 30번째 단어들 각각은 키워드뿐만 아니라 중립 단어로 확인된다. 따라서, 1번째 및 30번째 단어들의 위치 정보에 해당하는 '1' 및 '30'은 키워드 목록 (223-2)에 대한 저장 테이블(227-3) 및 감성 단어 목록(223-2)에 대한 저장 테이블(227-2)에서 중립 단어 영역에 저장된다. 101번째 단어는 인버스 단어로 확인되고 따라서, 101번째 단어의 위치 정보에 해당하는 '101'은 인버스 단어 목록(223-4)에 대한 저장 테이블(227-4)에 저장된다. 같은 방법으로, 모든 복수의 단어들의 위치 정보는 어휘 특성들에 따라서 저장 테이블들(227-1, 227-2, 227-3 및 227-4) 중 적어도 하나의 저장 영역에 저장된다.
텍스트 문서에서 복수의 단어들의 위치 정보가 저장부(227)에 저장된 이후에 질의 룰들은 텍스트 문서 분석을 위하여 준비된다. 질의 룰 적용부(225)는 복수의 텍스트 문서들 각각에 질의 룰들을 적용하고 질의 룰들에 있는 타깃 단어(들)를 저장부(227)에 저장되어 있는 단어들의 위치 정보를 이용하는 복수의 텍스트 문서들 각각에 있는 복수의 단어들과 매치시킨다. 따라서, 텍스트 문서의 분석 결과(예를 들어, 텍스 문서가 질의 룰들을 만족하는지 또는 텍스트 문서가 질의 룰들을 얼마나 만족하는지 여부)는 매칭 결과에 기초하여 얻어진다. 도 3 은 질의 룰들 (예를 들어, (only 명사) & (키워드 & 긍정 단어))의 예시이다.
다른 일 실시예에서, 복수의 텍스트 문서들에 있는 복수의 단어들의 위치 정보는 저장부(227)의 저장 영역들에 각각 저장되고 질의 룰들은 질의 룰들에 있는 타깃 단어(들)와 저장부(227)에 저장되어 있는 단어들의 위치 정보를 이용하는 텍스트 문서들 각각에 있는 단어들과 매치시키기 위하여 복수의 텍스트 문서들에 적용된다. 결과적으로, 적어도 하나의 원하는 텍스트 문서는 분석된 텍스트 문서들로부터 얻어진다.
도 4는 본 발명의 일 실시예에 따른 텍스트 문서 분류를 위하여 사용되는 어휘 목록의 논리 형태를 나타낸다.
어휘 목록들은 키워드 목록(401), 감성 단어 목록(402), 인버스 단어 목록(403) 및 품사 태그 목록(404)를 포함한다.
도 4를 참조하면, TV를 제조하는 'A사'에 대한 원하는 정보를 찾기 하여 텍스트 문서 분류 및 분석이 수행되는 경우에, 회사명, 제품명 및 구성원의 이름과 같은 단어들은 텍스트 문서 분류 및 분석을 위한 키워드들에 해당할 수 있다. 또한, 다양하게 변경된 키워드들도 키워드들로서 사용될 수 있다. 예를 들어, 'TV'는 'Tv', 'tv' 'television'과 같이 다양한 방법으로 표현될 수 있다. 이러한 단어들은 대표적인 단어인 'TV'를 가리키는 목록으로 그룹화될 수 있다. 따라서, 키워드 목록(401)은 복수의 단어 섹션들을 포함하고, 예를 들어, 'A사'에 대한 원하는 정보를 찾기 위하여 복수의 텍스트 문서들을 분류 및 분석하는 경우에는 TV섹션(401-1) 및 회사명 섹션(401-2)을 포함할 수 있다. 위에서 기술한 것과 같이, TV 섹션(401-1)은 'Tv', 'tv' 'television'과 같은 'TV'의 다양한 표현들을 키워드들로 저장하고 회사명 섹션(401-2)은 'A사', 'a사' 'A'를 키워드들로 저장할 수 있다.
키워드 목록(401)과 유사하게, 감성 단어 목록(402)는 '긍정', '부정' 및 '중립'의 대표 카테고리를 사용하는 관련 단어들을 저장한다. 즉, 감성 단어 목록(402)는 3개의 단어 섹션들을 포함하고, 예를 들어, 긍정 단어 섹션(402-1), 중립 단어 섹션(402-2) 및 부정 단어 섹션(402-3)을 포함할 수 있다. 도 4에서 설명된 것처럼, 긍정 단어 섹션(402-1)은 '좋다' 및 '기쁘다'와 같은 긍정적인 느낌 또는 의견들을 묘사하는 단어들을 저장할 수 있다. 중립 단어 섹션(402-2)은 '보통' 및 '그럭저럭'과 같은 중립적인 감정 또는 의견을 묘사하는 단어들을 저장할 수 있다. 부정 단어 섹션(402-3)은 '나쁘다' 및 '아니자'와 같은 부정적인 느낌 또는 의견을 묘사하는 단어들을 저장할 수 있다.
인버스 단어 목록(403)은 'A사' 및 'television'에 대한 정보를 제공하지 않는 단어들을 저장한다. 예를 들어, 인버스 단어 목록(403)은 엔터테인먼트 섹션 및 회사명 섹션과 같은 복수의 단어 섹션들을 포함한다. 엔터테인먼트 섹션은 대중 음악 그룹들의 이름(예를 들어, 비틀즈)을 포함하는 엔터테인먼트 연관 단어들을 포함하고 회사명 섹션은 다른 회사들의 이름들(예를 들어, 'B'의 회사명)을 포함한다. 품사 태그 목록(404)은 형태소 분석부(221) 및 어휘 특성 분석부(223)에서 사용되는 품사 태그 세트를 포함한다.
원형 단어들은 텍스트 문서에 있는 복수의 단어들의 원래 형태들이 형태소 분석부(221)에서 수행되는 형태소 분석을 통하여 추출되므로 어휘 목록들에 등록된다. 어휘 목록들 또는 목록들에 등록되어 있는 단어들은 갱신될 수 있다(예를 들어, 삭제, 변경). 이에 더하여, 새로운 어휘 목록(들) 또는 단어(들)는 텍스트 문서 분류 및 분석이 수행 중에 있더라도 추가될 수 있다.
어휘 목록들이 텍스트 문서 분류 및 분석을 위하여 준비된 이후에, 타깃 텍스트 문서는 텍스트 문서 분류 및 분석 서버(120-1)에 입력된다. 이후에, 위에서 기술된 것처럼, 형태소 분석부(221)는 복수의 단어들에 대하여 형태소 분석을 수행하여 타깃 텍스트 문서에 있는 복수의 단어들의 원형들을 추출한다. 어휘 특성 분석부(223)는 복수의 단어들의 원형들을 어휘 목록들과 매치 시키고 매칭 결과를 기초로 복수의 단어들의 위치 정보를 저장부(227)의 해당 저장 영역에 저장한다. 위치 정보의 저장은 도 5를 참조하여 설명한다.
예를 들어, 'A사의 TV 기술은 정말 좋아 보인다'라는 문장을 포함하는 텍스트 문서가 입력되는 경우에, 형태소 분석부(221)는 텍스트 문서에 포함되어 있는 복수의 단어들의 원형들을 추출한다. 즉, 형태소 분석부(221)는 텍스트 문서에 대한 형태소 분석을 수행하여 'A사', '의', 'TV', '기술', '은', '정말', '좋다' 및 '보인다'를 추출한다. 어휘 특성 분석부(223)는 텍스트 문서에 있는 복수의 단어들 각각의 위치를 결정하고 저장부(227)의 적절한 영역에 복수의 단어들의 위치 정보를 저장한다. 예를 들어, 명사로 태그된 'TV', '기술' 및 'A사'와 같은 단어들은 3번째 위치('3'으로 번호가 적용됨), 4번째 위치('4'로 번호가 적용됨) 및 1번째 위치('1'로 번호가 적용됨)에 각각 나타나고, 형용사 및 긍정 단어로 태그된 단어 '좋다'는 7번째 위치('7'로 번호가 적용됨)에 나타난다. 결과적으로, 위치 정보는 저장부(227)에서 각각의 단어와 연관된 어휘 목록들에 해당하는 저장 영역들에 저장된다. 여기에서, 위치 정보는, 예를 들어, 텍스트 문서에서 복수의 단어들의 위치에 기초하여 단어들에 순차적으로 적용된 번호들이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 문서에 포함된 복수의 단어들의 위치 정보를 저장하는 복수의 저장 영역의 논리 형태를 나타낸다.
도 5를 참조하면, 단어 'TV'가 키워드이고 명사로 태그되어 있기 때문에 단어 'TV'의 위치 정보(예를 들어, 단어 'TV'에 적용된 순차적인 번호 '3')는 키워드 목록(401)에 대한 저장 테이블(501)의 키워드 'TV' 영역 및 품사 태그 목록(404)에 대한 저장 테이블(504)의 명사 영역에 저장된다. 단어 'A사'는 '회사명'과 연관된 키워드이고 명사로 태그되기 때문에, 단어 'A사'는 적용된 순차적인 번호 '1'은 키워드 목록(401)에 대한 저장 테이블(501)의 키워드 '회사명' 영역 및 품사 태그 목록(404)에 대한 저장 테이블(504)의 명사 영역에 저장된다. 마찬가지로, 단어 '좋다'에 적용된 순차적인 번호 '7'은 감성 단어 목록(402)에 대한 저장 테이블(502)의 긍정 단어 영역에 저장되고, 단어 '기술'에 적용된 순차적인 번호 '2'는 품사 태그 목록(404)에 대한 저장 테이블(504)의 명사 영역에 저장된다. 해당 문장에 인버스 단어가 없으므로 인버스 단어 목록(403)에 대한 저장 테이블(503)에는 위치 정보가 저장되지 않는다.
복수의 텍스트 문서들에 저장되어 있는 복수의 단어들의 위치 정보를 위에서 기술된 바와 같이 저장부(227)에 저장한 후에, 질의 룰 적용부(225)는 복수의 텍스트 문서들을 분석하기 위하여 질의 룰들을 생성한다. 일 실시예에서, 질의 룰들은 적어도 하나의 오퍼레이터(operator)(또는 지시자)(예를 들어, 논리 연산자들)를 사용하여 만들어 진다. 오퍼레이터는 아래의 오퍼레이터들(또는 지시자)을 포함하지만, 본 발명은 아래의 오퍼레이터들에 제한되지 않는다.
1) 특정 단어군 빈도 계산(FREQ, frequency of a word) : 특정 단어의 빈도는 텍스트 문서에서 특정 단어가 나타날 때마다 특정 단어에 적용된 순차적인 번호들의 개수를 계산하여 얻어진다. 예를 들어, 도 5를 참조하면, 특정 명사는 텍스트 문서의 1번째, 3번째 및 4번째 위치에서 3번 나타나고 순차적인 번호 '1', '3' 및 '4'에 해당하는 위치 정보는 품사 태그 목록(404)에 대한 저장 테이블(504)의 명사 영역에 저장된다. 명사의 빈도(FREQ 명사)는 3이다. 여기에서, 명사의 빈도는 명사 영역에 저장되어 있는 위치 정보의 개수로부터 얻어진다. 명사 빈도를 얻기 위한 질의 룰은 FREQ 및 명사의 조합에 해당할 것이고, 예를 들어, 'FREQ명사'에 해당할 것이다.
2) 순서 고려 없이 발생 여부(AND/OR) : 이 오퍼레이터는 모든 단어들을 포함하거나 또는 적어도 하나의 단어를 포함하는 텍스트 문서를 찾기 위하여 사용된다.
2-1) 모든 단어를 포함하는 텍스트 문서를 찾기 위하여, 'AND' 연산자가 사용된다. 예를 들어, 'A사'dml 'TV'와 연관된 텍스트를 포함하는 텍스트 문서(들)를 찾기 위하여, 질의 룰은 'AND' 오퍼레이터, 'A사' 및 'TV'를 사용하여 생성된다. 질의 룰을 적용하여, 텍스트 문서에 'A사' 및 'TV'가 모두 나타나는지 여부가 결정된다. 위에서 살펴본 문장 'A사의 TV 기술은 정말 좋아 보인다'를 포함하는 텍스트 문장에 대하여 'TV'에 해당하는 위치 정보 '3', 'A사'에 해당하는 위치 정보 '1'은 은 모두 저장부(227)에서 찾아진다. 따라서, 위의 텍스트 문서는 질의 룰을 만족하는 텍스트 문서로 선택된다. 위의 결과를 얻기 위한 질의 룰은 'AND', 'A사' 및 'TV'의 조합에 해당할 것이고, 예를 들어, 'AND A사 TV'에 해당할 것이다.
2-2) 적어도 하나의 단어를 포함하는 텍스트 문서를 찾기 위하여, 'OR' 오퍼레이터가 사용된다. 예를 들어, 'A사' 또는 'TV'와 연관된 텍스트를 포함하는 텍스트 문서를 찾기 위하여, 질의 룰은 'OR' 오퍼레이터, 'A사' 및 'TV'를 사용하여 생성된다. 질의 룰을 적용하여, 'A사' 및 'TV'중 중 적어도 하나가 텍스트 문서에 나타나는지 여부가 결정된다. 위에서 살펴본 문장 'A사의 TV 기술은 정말 좋아 보인다'를 포함하는 텍스트 문장에 대하여 'TV'에 해당하는 위치 정보 '3', 'A사'에 해당하는 위치 정보 '1'은 저장부(227)에 저장되기 때문에, 위의 텍스트 문서는 질의 룰을 만족하는 텍스트 문서로서 선택된다. 위의 결과를 얻기 위한 질의 룰 'OR', 'A사' 및 'TV'의 조합에 해당할 것이고, 예를 들어, 'OR A사 TV'에 해당할 것이다.
3) 순서 고려 발생 (ORD) : 이 오퍼레이터는 텍스트 문서 안에서 복수의 단어들의 순서를 고려하여 텍스트 문서를 분석하기 위하여 사용된다. 예를 들어, 단어 순서는 부정을 부정하여 '긍정'에 해당하는 '중복 부정'을 결정하는 데에 중요하다. 부정을 긍정하는 단어들을 포함하는 문장에서, 긍정 단어는 보통 부정 단어 앞에 위치한다. 따라서, 일 실시예에서, 아래의 공식이 만족되는지 여부를 결정하기 쉽다.
긍정 단어의 위치 정보 < 부정 단어의 위치 정보
-> 부정 단어의 위치 정보 - 긍정 단어의 위치 정보 > 0
위의 공식을 실행하는 질의 룰은 'ORD(긍정 단어)(부정 단어)'에 해당할 수 있고, 예를 들어, 'ORD 좋다 아니다'에 해당할 수 있다.
4) 거리 제한 발생(DIST) : 이 오퍼레이터는 타깃 단어들이 기 설정된 거리 내에서 발생하는지 여부를 결정하기 위하여 사용된다. 예를 들어, '긍정'에 해당하는 '중복 부정'이더라도 1번째 부정 단어와 2번째 부정 단어 사이의 거리가 매우 먼 경우에는 해당 단어들 사이의 상호관계가 없을 수 있다. 따라서, 이 오퍼레이터는 타깃 단어들 사이의 거리를 제한하기 위하여 사용된다. DIST 오퍼레이터를 사용하는 질의 룰은 'DIST 3 (1번째 단어) (2번째 단어)'에 해당할 수 있다. 여기에서, 질의 룰에 있는 '3'은 1번째 부정 단어와 2번째 부정 단어 사이에 있는 단어의 개수를 나타낸다. 즉, '3'은 두 타깃 단어들(예를 들어, 1번째 부정 단어와 2번째 부정 단어) 사이에 3개의 단어가 있는 것을 의미한다.
5) 미발생 여부(NOT) : 이 오퍼레이터는 특정 인버스 단어 또는 불필요한 질의 패턴을 무시하기 위하여 사용된다. 예를 들어, '아이돌' 이라는 단어를 무시하기 위한 질의 룰은 'NOT 아이돌'로 생성될 수 있다. 이 오퍼레이터는 기 설정된 질의 룰과 조합될 수 있다. 예를 들어, 'TV'와 'A사'를 포함하는 텍스트 문서를 무시하기 위하여, 질의 룰 'AND TV A사'는 질의룰 'NOT(AND TV A사)'를 생성하기 위하여 NOT 연산자와 조합된다.
도 6은 본 발명의 일 실시에에 따른 텍스트 문서 분석을 위하여 사용되는 분석 카테고리 테이블의 논리 형태를 나타낸다.
분석 카테고리 테이블(600)은 A사에 대한 특정 감정 또는 의견을 포함하는 복수의 텍스트 문서들을 찾기 위하여 사용될 수 있는 질의 룰들을 포함한다.
분석 카테고리 테이블(600)은 긍정 의견, 부정 의견 및 중립 의견에 대한 질의 룰들을 각각 저장하는 3개의 섹션들(601, 602 및 603)을 포함한다. 일 실시예에서, 1번째 섹션(601)은 'AND(A사)(긍정 단어)'에 해당하는 질의 룰을 저장하고, 2번째 섹션(602)는 'AND(A사)(부정 단어)'에 해당하는 질의 룰을 저장하고, 3번째 섹션(603)은 'NOT{AND(A사)(긍정 단어) AND(A사)(부정 단어)}'에 해당하는 질의 룰을 저장한다.
일 실시예에서, 분석 카테고리 테이블(600)은 저장부(227)에 저장되고 새로운 질의 룰(들)을 저장하거나 저장되어 있는 기존의 질의 룰(들)을 삭제하는 것을 통하여 갱신된다. 분석 카테고리 테이블(600)은 텍스트 문서 분석 중에도 변경될 수 있으나 본 발명의 실시예들을 여기에 제한되지 않는다. 다른 일 실시예에서, 분석 카테고리 테이블(600)은 저장부(227)로부터 분리된 다른 저장부에 저장될 수 있다.
도 7은 본 발명의 일 실시예에 따른 텍스트 분류 및 분석 서버의 하드웨어 구성을 나타낸다.
텍스트 문서 분류 및 분석 서버(120-2)는 다양한 다른 구성요소들과 버스(722)를 통하여 통신하는 프로세서 또는 CPU(721)를 포함한다. 프로세서(721)는 다른 구성요소들의 작동을 제어하고 다른 구성요소들과 텍스트 문서 분류 및 분석을 실행한다.
텍스트 문서 분류 및 분석 서버(120-2)의 다른 구성요소들은 메모리(723)와 같은 일시적이지 않고 컴퓨터 판독 가능한 저장 매체를 포함하고 대용량이고 일시적이지 않으며 컴퓨터 판독 가능한 저장 매체(724)를 포함한다. 그러나, 여기에 제한되지 않는다. 여기에서, 메모리(723)는 읽기 전용 메모리 ROM(723-1) 및 RAM(Random Access Memory)(723-2)를 포함한다. 구성요소들 중 적어도 하나는 텍스트 문서 분류 및 분석에 대한 방법을 포함하는 컴퓨터 코드를 저장하기 위하여 텍스트 문서 분류 및 분석 서버(120-2)에 의하여 사용될 수 있다.
텍스트 문서 분류 및 분석 서버(120-2)는 네트워크(130)와 통신하기 위하여 네트워크 인터페이스(727)를 포함한다. 네트워크 인터페이스(727)는 텍스트 문서 분류 및 분석 서버(120-2)와 네트워크(130)간의 정보, 데이터 및 신호를 전송할 수 있는 환경을 설정한다. 다시 도 1을 참조하면, 텍스트 문서 분류 및 분석 서버(120-2)는 네트워크(130)를 통하여 복수의 텍스트 문서 리소스들(110)과 연결되기 때문에, 정보, 데이터 및 신호는 텍스트 문서 분류 및 분석 서버(120-2)에 의하여 분류 및 분석 될 텍스트 문서를 포함할 수 있다.
이에 더하여, 텍스트 문서 분류 및 분석 서버(120-2)는 사용자 인터페이스 입력 장치(725) 및 사용자 인터페이스 출력 장치(726)를 포함한다. 사용자 또는 분석자는 사용자 인터페이스 입력 장치(725) 및 사용자 인터페이스 출력 장치(726)를 통하여 텍스트 문서 분류 및 분석 서버(120-2)와 통신할 수 있다.
일 실시예에서, 사용자 또는 분석자는 사용자 인터페이트 입력 장치(725)를 통하여 기존에 있는 단어들 또는 질의 룰들을 삭제하기 위한 새로운 단어들, 새로운 질의 룰들 및 명령을 텍스트 문서 분류 및 분석 서버(120-2)에 제공한다. 사용자 인터페이스 입력 장치(725)는 키보드(keyboard), 마우스와 같은 포인팅 장치(pointing device), 트랙볼(track ball), 터치패드(touchpad) 또는 그래픽 태블릿(graphics tablet), 스캐너(scanner), 디스플레이와 결합된 터치 스크린(touchscreen) 또는 다른 종류의 입력 장치를 포함할 수 있다. 일반적으로, '입력 장치'라는 용어의 사용은 텍스트 문서 분류 및 분석 서버(120-2)에 정보, 데이터 및 명령의 입력을 위한 모든 가능한 메커니즘들을 포함하기 위한 의도이다.
사용자 또는 분석자는 사용자 인터페이스 출력 장치(726)를 통하여 텍스트 문서 분류 및 분석 서버(120-2)로부터 분석 결과들과 같은 정보가 얻어질 수 있다. 사용자 인터페이트 출력 장치(726)는 디스플레이 스크린과 같은 비주얼(visual) 출력 장치를 포함할 수 있지만, 본 발명은 여기에 제한되지 않는다. “출력 장치”라는 용어는 사용자에게 정보를 출력하기 위한 모든 가능한 메커니즘들(mechanisms)을 포함하기 위한 의도이고 비주얼 출력 장치만을 포함하거나 또는 스피커(speaker) 및 햅틱(haptic) 출력 장치와 같은 어디터리(auditory) 출력 장치를 포함하는 비주얼 출력 장치를 포함할 수 있다.
도 2의 텍스트 문서 분류 및 분석 서버(120-1)의 구성요소들은 도 7의 텍스트 문서 분류 및 분석 서버(120-2)의 구성요소들을 사용하여 수행될 수 있다.
도 8은 본 발명의 일 실시예에 따른 텍스트 문서 분류 방법을 나타내는 흐름도이다.
텍스트 문서 분류 방법은 도 2를 참조하여 설명한다.
형태소 분석부(221)는 원형 단어를 추출하기 위하여 텍스트 문서에 있는 단어들에 대한 형태소 분석을 수행한다(단계 S802).
형태소 분석부(221)는 품사 태그 목록을 사용하는 해당 품사에 기초하여 복수의 단어들 각각을 태그한다(단계 S803).
어휘 특성 분석부(223)는 텍스트 문서 내의 단어 순서에 따라서 복수의 단어들 각각에 순차적인 번호를 적용한다(단계 S804).
어휘 특성 분석부(223)는 저장부(227)에 복수의 단어들의 순차적인 번호에 해당하는 위치 정보를 저장한다(단계 S805). 어휘 특성 분석부(223)는 순차적으로 번호가 적용된 복수의 단어들이 각각의 목록에 등록되어 있는 단어에 해당하는지 결정하기 위하여 품사 태그 목록, 감성 단어 목록, 각각의 분야 또는 영역에 대한 키워드 목록 및 인버스 단어 목록을 텍스트 문서에 순차적으로 적용한다. 번호가 적용된 단어가 특정 리스트에 등록되어 있는 단어에 해당하는 경우에는 해당 단어의 위치 정보는 특정 리스트에 해당하는 저장부(227)의 영역에 저장된다. 위치 정보를 저장한 후에, 텍스트 문서 분류는 종료된다.
도 9는 본 발명의 일 실시예에 따른 텍스트 문서 분석 방법을 나타내는 흐름도이다.
텍스트 문서 분석 방법은 도 2를 참조하여 설명한다.
텍스트 문서 분류 및 분석 서버(120-1)는 저장부(227)에 저장되어 있는 질의 룰들을 검색하여 초기 질의 룰들을 획득하거나 또는 사용자 또는 분석자에 의하여 입력된 질의 룰들을 수신한다(단계 S901).
질의 룰 적용부(225)는 형태소 분서부(221) 및 어휘 특성 분석부(223)에 의하여 분류된 복수의 텍스트 문서들에 초기 질의 룰들을 적용한다(단계 S902). 질의 룰 분석부(225)는 복수의 텍스트 문서들 내에 있는 복수의 단어의 위치 정보에 기초하여 복수의 텍스트 문서들을 분석한다. 여기에서, 위치 정보는 저장부(227)에 저장되어 있다.
분석 결과는 출력된다(단계 S903). 일 실시예에서, 분석 결과들은 복수의 텍스트 문서들이 질의 룰들을 만족하는 것을 가리킨다. 일 실시예에서, 분석 결과들은 복수의 텍스트 문서들이 질의 룰들을 만족하였는지 여부를 나타낸다. 일 실시예에서, 분석 결과들은 사용자 또는 분석자가 분석 결과들을 평가하기 위하여 사용자 장치에 출력된다. 사용자 장치에 제공된 분석 결과들은 사용자 또는 분석자가 선택한 질의 룰들을 만족하는 복수의 텍스트 문서들의 리스트에 대한 디스플레이를 포함한다. 디스플레이 된 리스트로부터 어떠한 텍스트 문서가 선택된 경우에는 선택된 텍스트 문서는 사용자 또는 분석자에게 원하던 분석 결과로 제공된다(단계 S905). 사용자 또는 분석자가 분석 결과들에 만족하는 경우에는 텍스트 문서 분석은 분석 결과들을 출력한 이후에 완료 된다.
원하던 분석 결과가 얻어지지 않은 경우에는 사용자 또는 분석자는 질의 룰들을 변경하고(단계 S904) 질의 룰 적용부(225)는 복수의 텍스트 문서들을 다시 분석하기 위하여 변경된 질의 룰들을 텍스트 문서에 적용한다.
상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 텍스트 문서 분류 및 분석 시스템
110: 복수의 텍스트 문서 리소스들
120: 텍스트 문서 분류 및 분석 서버
130: 네트워크
221: 형태소 분석부 223: 특성 분석부
225: 질의 룰 적용부 227: 저장부
401: 키워드 목록 402: 감성 단어 목록
403: 인버스 단어 목록 404: 품사 태그 목록
501: 키워드 목록 502: 감성 단어 목록
503: 인버스 단어 목록 504: 품사 태그 목록
600: 분석 카테고리 601: 긍정
602: 부정 603: 중립
721: 프로세서 722: 버스
723: 메모리 724: 저장 장치
725: 사용자 인터페이스 입력 장치
726: 사용자 인터페이스 출력 장치
727: 네트워크 인터페이스

Claims (20)

  1. 프로세서;
    적어도 하나의 저장 영역을 포함하는 메모리; 및
    실행될 때 상기 프로세서가 아래의 방법을 수행하도록 하는 명령어들을 포함하는 비일시적인 컴퓨터 판독 가능한 매체를 포함하고, 상기 방법은
    복수의 단어들을 포함하는 문서를 수신하는 단계;
    상기 문서에 대한 형태소 분석을 수행하여 상기 복수의 단어들의 원형을 추출하는 단계;
    해당 품사를 기초로 상기 복수의 단어들을 태그하는 단계;
    상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하는 단계;
    적어도 하나의 어휘 목록을 상기 문서에 적용하여 상기 복수의 단어들 각각을 분류하는 단계; 및
    상기 위치 정보를 저장하는 단계를 포함하는 문서 분류 및 분석 시스템.
  2. 제1항에 있어서, 상기 복수의 단어들의 상기 위치 정보는
    상기 메모리에 있는 복수의 저장 영역들 중 적어도 하나의 영역에 저장되고, 상기 적어도 하나의 저장 영역은 상기 적어도 하나의 어휘 목록 각각 대응하는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  3. 제1항에 있어서, 상기 적어도 하나의 어휘 목록은
    품사 태그 목록(part-of-speech tag list), 감성 어휘 목록(sentimental word list), 키워드 목록(keyword list) 및 인버스 단어 목록(inverse word list) 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  4. 제3항에 있어서, 상기 키워드 목록은
    적어도 하나의 섹션(상기 각각의 섹션은 특정 분야에 대응함)을 포함하고,
    상기 각각의 섹션에 있는 복수의 키워드들은 상기 해당 분야와 연관된 유효한 리소스(resource)들을 기초로 생성되는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  5. 제1항에 있어서, 상기 위치 정보를 결정하는 단계는
    상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들에 순차적인 번호를 적용하는 단계를 더 포함하고,
    상기 복수의 단어들 각각의 위치 정보는 해당 단어에 적용된 순차적인 번호를 포함하는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  6. 제1항에 있어서, 상기 비일시적인 컴퓨터 판독 가능한 매체는 실행될 때 상기 프로세서가
    적어도 하나의 질의 룰(query rule)을 복수의 단어들을 포함하는 적어도 하나의 문서에 적용하는 단계;
    상기 적어도 하나의 문서가 상기 질의 룰을 만족하는지 여부를 결정하는 단계; 및
    상기 적어도 하나의 문서가 상기 질의 룰을 만족하는지 여부에 대한 결정의 결과를 포함하는 문서 분석 결과를 출력하는 단계를 수행하도록 하는 명령어를 더 포함하고,
    상기 적어도 하나의 질의 룰은 상기 메모리에 저장된 상기 복수의 단어들의 위치 정보를 사용하는 상기 문서에 적용되는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  7. 제6항에 있어서,
    상기 적어도 하나의 문서에 적용되는 상기 적어도 하나의 어휘 목록 및 상기 적어도 하나의 질의 룰 중 임의의 하나는 상기 문서 분석 결과를 기초로 갱신되는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  8. 제6항에 있어서, 상기 적어도 하나의 질의 룰은
    적어도 하나의 논리 연산자(Boolean operator) 및 적어도 하나의 타깃 단어(target word)를 포함하는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  9. 제6항에 있어서, 상기 적어도 하나의 질의 룰은
    복수의 타깃 단어들의 위치 정보를 기초로 상기 복수의 타깃 단어들 간의 상호관계에 의하여 정의되는 것을 특징으로 하는 문서 분류 및 분석 시스템.
  10. 복수의 단어들을 포함하는 문서를 수신하는 단계;
    상기 문서에 대한 형태소 분석을 수행하여 상기 복수의 단어들의 원형을 추출하는 단계;
    해당 품사를 기초로 상기 복수의 단어들을 태그하는 단계;
    상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하는 단계;
    적어도 하나의 어휘 목록을 상기 문서에 적용하여 상기 복수의 단어들 각각을 분류하는 단계; 및
    상기 위치 정보를 상기 복수의 단어들의 분류를 기초로 저장부에 저장하는 단계를 포함하는 문서 분류 및 분석 방법.
  11. 제10항에 있어서, 상기 위치 정보를 결정하는 단계는
    상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들에 순차적인 번호를 적용하는 단계를 더 포함하고,
    상기 복수의 단어들 각각의 위치 정보는 해당 단어에 적용된 순차적인 번호를 포함하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  12. 제10항에 있어서, 상기 위치 정보를 저장하는 단계는
    상기 복수의 단어들의 위치 정보를 상기 저장부에 있는 적어도 하나의 저장 영역에 저장하는 단계를 포함하고 상기 적어도 하나의 저장 영역은 상기 적어도 하나의 어휘 목록 각각에 대응하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  13. 제10항에 있어서, 상기 적어도 하나의 어휘 목록은
    품사 태그 목록, 감성 어휘 목록, 키워드 목록 및 인버스 단어 목록 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  14. 제13항에 있어서, 상기 키워드 목록은
    적어도 하나의 섹션(상기 각각의 섹션은 특정 분야에 대응함)을 포함하고,
    상기 각각의 섹션에 있는 복수의 키워드들은 상기 해당 분야와 연관된 유효한 리소스(resource)들을 기초로 생성되는 것을 특징으로 하는 문서 분류 및 분석 방법.
  15. 제10항에 있어서,
    적어도 하나의 질의 룰을 상기 복수의 문서들에 적용하여 상기 복수의 문서들 각각이 상기 복수의 질의 룰들을 각각 만족하는지 여부를 결정하는 단계; 및
    복수의 문서 분석 결과들로서 상기 결정의 결과를 출력하는 단계를 더 포함하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  16. 제15항에 있어서, 상기 복수의 질의 룰들은
    상기 저장부에 저장되어 있는 상기 복수의 문서들의 복수의 단어들에 대한 위치 정보를 사용하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  17. 제15항에 있어서,
    상기 복수의 질의 룰들 및 상기 적어도 하나의 어휘 목록 중 임의의 하나는 상기 문서 분석 결과를 기초로 갱신되는 것을 특징으로 하는 문서 분류 및 분석 방법.
  18. 제15항에 있어서, 상기 복수의 질의 룰들 각각은
    적어도 하나의 논리 연산자 및 적어도 하나의 타깃 단어를 포함하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  19. 제15항에 있어서, 상기 복수의 질의 룰들은
    복수의 타깃 단어들에 대한 위치 정보를 기초로 상기 복수의 타깃 단어들 간의 상호관계에 의하여 정의된 적어도 하나의 질의 룰을 포함하는 것을 특징으로 하는 문서 분류 및 분석 방법.
  20. 컴퓨터가 문서 분류 및 분석을 수행하도록 하는 컴퓨터 프로그램을 포함하는 비일시적인 컴퓨터 판독 가능한 매체에 있어서, 상기 컴퓨터 판독 가능한 매체는
    복수의 단어들을 포함하는 문서를 수신하기 위한 코드;
    상기 복수의 단어들의 원형을 추출하기 위한 코드;
    해당 품사를 기초로 상기 복수의 단어들을 각각 태그하기 위한 코드;
    상기 문서에 있는 상기 복수의 단어들의 순서를 기초로 상기 복수의 단어들의 위치 정보를 결정하기 위한 코드;
    상기 문서에 적어도 하나의 어휘 목록을 적용하여 상기 복수의 단어들을 분류하기 위한 코드;
    상기 복수의 단어들의 분류를 기초로 상기 위치 정보를 저장하기 위한 코드;
    상기 문서를 포함하는 복수의 문서들에 대한 적어도 하나의 질의 룰을 적용하기 위한 코드;
    상기 복수의 문서들 중에서 상기 질의 룰을 각각 만족하는 문서를 결정하기 위한 코드; 및
    상기 결정된 문서로부터 선택된 문서를 출력하기 위한 코드를 포함하는 컴퓨터 판독 가능한 매체.
KR1020150015857A 2014-05-13 2015-02-02 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 KR101723862B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/276,725 2014-05-13
US14/276,725 US9582486B2 (en) 2014-05-13 2014-05-13 Apparatus and method for classifying and analyzing documents including text

Publications (2)

Publication Number Publication Date
KR20150130214A true KR20150130214A (ko) 2015-11-23
KR101723862B1 KR101723862B1 (ko) 2017-04-06

Family

ID=54538649

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150015857A KR101723862B1 (ko) 2014-05-13 2015-02-02 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치

Country Status (2)

Country Link
US (1) US9582486B2 (ko)
KR (1) KR101723862B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200013298A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
US11803796B2 (en) 2017-05-05 2023-10-31 Ping An Technology (Shenzhen) Co., Ltd. System, method, electronic device, and storage medium for identifying risk event based on social information

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212563A (ja) * 2015-05-01 2016-12-15 キヤノン株式会社 文書解析システムおよび文書解析方法
US10545854B2 (en) * 2016-07-01 2020-01-28 Wipro Limited Method and a system for automatically identifying violations in one or more test cases
CN106649277B (zh) * 2016-12-29 2020-07-03 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
US11347805B2 (en) 2017-03-08 2022-05-31 Samsung Electronics Co., Ltd. Electronic apparatus, method for controlling the same, and non-transitory computer readable recording medium
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
KR102458338B1 (ko) * 2017-11-30 2022-10-25 삼성전자주식회사 컴퓨팅 장치의 정보 입력 방법 및 그 컴퓨팅 장치
US10380260B2 (en) * 2017-12-14 2019-08-13 Qualtrics, Llc Capturing rich response relationships with small-data neural networks
JP7006462B2 (ja) * 2018-04-02 2022-01-24 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置
US11921767B1 (en) * 2018-09-14 2024-03-05 Palantir Technologies Inc. Efficient access marking approach for efficient retrieval of document access data
CN109344254B (zh) * 2018-09-20 2020-12-18 鼎富智能科技有限公司 一种地址信息分类方法及装置
CN111382269B (zh) * 2020-03-02 2021-07-23 拉扎斯网络科技(上海)有限公司 文本分类模型训练方法、文本分类方法及相关装置
US20230004603A1 (en) * 2021-07-05 2023-01-05 Ujjwal Kapoor Machine learning (ml) model for generating search strings

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101330158B1 (ko) * 2013-07-12 2013-11-15 주식회사 메조미디어 텍스트의 감정지수 분석 방법 및 컴퓨터 판독 가능한 기록 매체

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
JP3022539B1 (ja) * 1999-01-07 2000-03-21 富士ゼロックス株式会社 文書検索装置
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR100420096B1 (ko) 2001-03-09 2004-02-25 주식회사 다이퀘스트 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
KR100731283B1 (ko) 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
WO2010096193A2 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8504550B2 (en) 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8380697B2 (en) 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
JP5085708B2 (ja) * 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101330158B1 (ko) * 2013-07-12 2013-11-15 주식회사 메조미디어 텍스트의 감정지수 분석 방법 및 컴퓨터 판독 가능한 기록 매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803796B2 (en) 2017-05-05 2023-10-31 Ping An Technology (Shenzhen) Co., Ltd. System, method, electronic device, and storage medium for identifying risk event based on social information
KR20200013298A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
US20150331847A1 (en) 2015-11-19
KR101723862B1 (ko) 2017-04-06
US9582486B2 (en) 2017-02-28

Similar Documents

Publication Publication Date Title
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
Bharti et al. Sarcastic sentiment detection in tweets streamed in real time: a big data approach
US9558264B2 (en) Identifying and displaying relationships between candidate answers
CN111417940B (zh) 用于生成问题答案的方法、系统和介质
US20160299955A1 (en) Text mining system and tool
US20130060769A1 (en) System and method for identifying social media interactions
WO2014071330A2 (en) Natural language processing system and method
KR101873873B1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
JP2008541223A (ja) 諸文書にわたる文脈要約情報の決定方法
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
KR20150071833A (ko) 소셜 미디어 이슈 처리 방법과 이를 지원하는 장치
WO2015084757A1 (en) Systems and methods for processing data stored in a database
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
US20230090601A1 (en) System and method for polarity analysis
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
O’Connor MiTextExplorer: Linked brushing and mutual information for exploratory text data analysis
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
US8195458B2 (en) Open class noun classification
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
KR20070008994A (ko) 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
Chan et al. Social media harvesting
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
WO2020026229A2 (en) Proposition identification in natural language and usage thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 4