KR101476230B1 - 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 - Google Patents

자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 Download PDF

Info

Publication number
KR101476230B1
KR101476230B1 KR1020100138531A KR20100138531A KR101476230B1 KR 101476230 B1 KR101476230 B1 KR 101476230B1 KR 1020100138531 A KR1020100138531 A KR 1020100138531A KR 20100138531 A KR20100138531 A KR 20100138531A KR 101476230 B1 KR101476230 B1 KR 101476230B1
Authority
KR
South Korea
Prior art keywords
natural language
mathematical
extracting
token
information
Prior art date
Application number
KR1020100138531A
Other languages
English (en)
Other versions
KR20120076810A (ko
Inventor
박용길
박근태
최승락
이동학
이종헌
이명성
최형인
위남숙
이두석
손정교
김행문
Original Assignee
에스케이 텔레콤주식회사
주식회사 아이싸이랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사, 주식회사 아이싸이랩 filed Critical 에스케이 텔레콤주식회사
Priority to KR1020100138531A priority Critical patent/KR101476230B1/ko
Priority to CN201180064528.XA priority patent/CN103299292B/zh
Priority to PCT/KR2011/009333 priority patent/WO2012074338A2/ko
Publication of KR20120076810A publication Critical patent/KR20120076810A/ko
Priority to US13/908,366 priority patent/US20130268263A1/en
Application granted granted Critical
Publication of KR101476230B1 publication Critical patent/KR101476230B1/ko

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명의 실시예는 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로서, 자연어와 수식이 포함된 복합문장을 수신하는 정보입력단계; 상기 복합문장에서 상기 자연어 및 상기 수식을 분리하는 분리단계; 분리된 상기 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리단계; 분리된 상기 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리단계; 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 저장하는 룰저장단계; 및 상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 동작정보를 추출하는 동작추출단계를 포함하는 것을 특징으로 한다.

Description

자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체{Method for Extracting Semantic Information of Composite Sentence Including Natural Language and Mathematical Formula, Apparatus And Computer-Readable Recording Medium with Program Therefor}
본 발명의 실시예는 자연어와 수학식이 포함된 복합문장의 시맨틱 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다. 더욱 상세하게는, 자연어와 표준화된 수학식으로 구성된 수학문제에 포함된 의미론적인 시맨틱(Semantic) 정보를 자동으로 추출하고자 하는 자연어와 수학식이 포함된 복합문장의 시맨틱 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
종래에 수학식을 처리하는 기술은 XML을 기반으로 하여 수학식 편집 등을 위하여 파싱하는 방법이 사용되었다. 즉, 웹상에서의 수학식 사용을 가능하게 하고, XML에 기반하여 수학식을 포함하는 문서의 효율적인 처리 등에 유용하게 사용되도록 하는 목적으로 사용된 것이다.
하지만, 지금까지 이 분야에서의 기술은 XML을 트리 형태로 구성하는 것이 목적이었기 때문에, 실제 수학식 내부에 포함된 의미를 파악하기에는 한계가 있었다.
이러한 문제점을 해결하기 위해 본 발명의 실시예는, 자연어와 표준화된 수학식으로 구성된 수학문제에 포함된 의미론적인 시맨틱 정보를 자동으로 추출하고자 하는 데 주된 목적이 있다.
전술한 목적을 달성하기 위해 본 발명의 일 실시예는, 자연어와 수식이 포함된 복합문장을 수신하는 정보입력부; 상기 복합문장에서 상기 자연어 및 상기 수식을 분리하는 분리부; 분리된 상기 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리부; 분리된 상기 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리부; 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 저장하는 룰저장부; 및 상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 동작정보를 추출하는 동작추출부를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치를 제공한다.
또한, 본 발명의 다른 목적을 달성하기 위해 본 발명의 일 실시예는, 단말기로부터 자연어와 수식이 포함된 복합문장이 입력되는 경우, 분리된 자연어를 토큰화하여 자연어토큰을 생성하고 분리된 상기 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하고, 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 이용하여 상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 동작정보를 추출하는 시맨틱정보 추출부; 및 상기 단말기로 하여금 상기 복합문장의 입력 및 상기 동작정보에 대한 읽기가 수행되도록 하는 클라우드 컴퓨팅부를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치를 제공한다.
또한, 본 발명의 다른 목적을 달성하기 위해 본 발명의 일 실시예는, 자연어와 수식이 포함된 복합문장을 수신하는 정보입력단계; 기 복합문장에서 상기 자연어 및 상기 수식을 분리하는 분리단계; 분리된 상기 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리단계; 분리된 상기 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리단계; 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 저장하는 룰저장단계; 및 상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 동작정보를 추출하는 동작추출단계를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법을 제공한다.
또한, 본 발명의 다른 목적을 달성하기 위해 본 발명의 일 실시예는, 상기의 복합문장의 시맨틱 정보 추출방법의 각 단계를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이상에서 설명한 바와 같이 본 발명의 실시예에 의하면, 자연어와 표준화된 수학식으로 구성된 수학문제에 포함된 의미론적인 시맨틱 정보를 자동으로 추출하는 효과가 있다.
그리고, 수학 문제의 동작정보와 수학 오브젝트는 수학 문제가 무엇을 하는 것인지, 어떤 내용을 포함하고 있는지에 대한 정보를 모두 포함하고 있어서 이런 수학 문제 시맨틱 정보를 바탕으로 활용할 수 있는 토대를 제공하는 효과가 있다.
또한, 검색된 수학문제 간의 연관성을 파악하는 과정에서도 사용될 수 있어서, 이러한 경우 사용자로 하여금 최적의 검색 결과를 얻을 수 있게 도움을 주는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치를 개략적으로 나타낸 블럭 구성도이다.
도 2는 수학 문제가 구성된 형태를 트리 구조로 예시한 도면이다.
도 3은 룰을 생성하는 절차를 예시한 도면이다.
도 4는 룰저장부(170)로 사용되는 룰엔진의 구성 및 동작정보의 추출과정을 예시한 도면이다.
도 5는 수학 오브젝트를 획득하는 절차에 대해서 간략히 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출방법을 설명하기 위한 순서도이다.
도 7은 룰 매칭에 의해 동작정보를 추출하는 방법을 예시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치가 클라우드 컴퓨팅으로 데이터를 제공하는 시스템에 대한 예시도이다.
도 1은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치를 개략적으로 나타낸 블럭 구성도이다.
본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치(100)는 정보입력부(110), 분리부(120), 자연어처리부(130), 수식처리부(140), 동작추출부(150), 오브젝트생성부(160) 및 룰저장부(170)를 포함하여 구성될 수 있다.
정보입력부(110)는 자연어(Natural Language)와 수식(Mathematical Formula)이 포함된 복합문장을 수신한다.
분리부(120)는 복합문장에서 자연어 및 수식을 분리한다.
자연어처리부(130)는 분리된 자연어를 토큰화하여 자연어토큰을 생성한다.
수식처리부(140)는 분리된 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성한다.
룰저장부(170)는 자연어와 수학식의 조합과 대응되는 동작정보를 결합한 룰을 저장한다.
동작추출부(150)는 생성된 자연어토큰과 수학식토큰을 저장된 룰 내의 자연어와 수학식의 조합과 비교하여 룰저장부(170)에 저장된 룰로부터 복합문장의 동작정보를 추출한다.
오브젝트생성부(160)는 자연어토큰의 대상이 되는 수식을 수식처리부(140)에서 생성한 수학식토큰 중에서 매칭시켜 수학 오브젝트를 생성한다.
수학 오브젝트를 생성함에 있어서 자연어와 더불어 수식이 포함된 복합문장으로 구성된 수학문장의 실제 의미를 추출하여 표현하기 위하여 다음의 단계를 수행한다.
1. 수학식과 자연어의 토큰 관계를 룰로 구성하는 단계
2. 자연어와 수학식을 표현한 문장을 읽어 들여 수학문장이 의미하는 동작정보를 찾는 단계.
3. 수학 오브젝트를 구성하는 단계.
수학 문장이 가지는 시맨틱 정보는 동작정보와 수학 오브젝트를 포함할 수 있다.
동작정보(Action)는 수학문제가 기본적으로 풀어야 하는 목적을 표현한다. 예를 들어, 해당 수학식 문장이 문제를 푸는 것인지, 개념을 설명하는 것인지 등에 관해서 실제 푸는 사람이 동작을 취할 수 있도록 하는 정보에 기반해서 문제에서 추출한 정보다. 이 정보는 자연어와 수학식의 토큰을 통해 전처리(pre-processing)되어 정의된 룰에 의해서 생성될 수 있다.
수학 오브젝트(Math Object)는 수학 문제에 포함된 세분화된 각 엔티티(entity)를 표현하는 데 사용된다. 즉, 이 수학 문제를 풀기 위해서는 어떤 기법(technique)이나 사실(fact)이 필요한지를 나타낼 수 있고, 수학 문제 내부에 어떤 형태의 함수가 들어가는지 등을 나타낼 수도 있다. 이 오브젝트의 개념은 수학 문제의 다양성을 지원하기 위한 확장성에 도움이 될 수 있다. 이 정보는 자연어에서 얻은 정보와 수학식에서 얻은 정보가 각각 수학 오브젝트화 될 수 있다.
도 2는 수학 문제가 구성된 형태를 트리 구조로 예시한 도면이다. 도 2에 도시된 바와 같이, 하나의 수학 컨텐츠가 가질 수 있는 구조를 트리로 표현하면, 해당 수학컨텐츠(루트(Root) 노드)를 구성하는 자식 노드들은 중요 의미 중 하나인 어순 정보를 그대로 유지한 채 자연어와 수식으로 분리된 형태를 갖게 된다. 또한, 각 자연어는 문장의 연결 순서에 따라 특별한 의미를 가진다. 예를 들어서, 하나의 자연어의 뒤에 따라오는 수식이 특정 조건으로서 연결되거나, 뒤에 오는 수식이 정의되었는지 등의 의미를 가질 수 있다.
수학 문제에서 자동으로 위와 같은 정보를 얻기 위해서는, 자연어와 표준화된 수학식을 각각 구분하여 토큰화(tokenization)를 할 필요가 있다. 이런 자연어와 수학식을 분석하는 프로그램의 입력은 도 1과 같이 이 두 가지가 혼재된 형태가 될 것이다. 즉, 일반 자연어와 W3C(World Wide Web Consortium)에서 표준화된 MathML 표준을 따르는 XML이 입력이 될 수 있다.
정보입력부(110)는 자연어 및 수식의 조합으로 이루어진 조합 데이터(복합문장)를 입력받는다. 여기서, 조합 데이터는 수학 문제, 수식 증명 등을 포함한 수학 컨텐츠인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. 또한, 자연어 및 수식의 조합으로 이루어진 조합 데이터는 사용자의 조작 또는 명령에 의해 직접 입력될 수 있으나 반드시 이에 한정되는 것은 아니며, 별도의 외부 서버로부터 자연어 및 수식의 조합으로 이루어진 문서 데이터를 입력받을 수도 있을 것이다.
분리부(120)는 조합 데이터에서 자연어 및 수식을 분리한다. 즉, 분리부(120)는 정보 입력부(110)를 통해 자연어 및 수식의 조합으로 이루어진 조합 데이터가 입력되면, 조합 데이터에 포함된 자연어와 수식을 분리하여 인식한다. 여기서, 수식은 컨텐츠 기반의 MathML(cMathML) 형태로 생성될 수 있다.
자연어 처리부(130)는 자연어를 토큰화한 자연어 토큰을 생성하고, 생성된 자연어 토큰에서 중지 단어(Stop Word)를 필터링한 중지단어 필터링 데이터를 생성하며, 중지 단어 필터링 데이터에서 중복 제거 필터링을 수행하여 중복 제거 필터링 데이터를 생성하고, 중복 제거 필터링 데이터에 기 정의된 의미가 부여된 동작 정보를 매칭한다. 여기서, 토큰(Token)이란 연속된 문장에서 구별할 수 있는 단위를 말하며, 토큰화는 자연어를 복합문장의 시맨틱 정보 추출장치(100)가 이해할 수 있는 단위인 워드(Word) 단위로 쪼개는 과정을 말한다. 자연어 처리부(130)는 자연어 토큰에서 기 설정된 중지 단어로 판별된 자연어 토큰을 선별하여 제거하는 중지 단어 필터링을 수행하여 중지 단어 필터링 데이터를 생성한다. 자연어 처리부(130)는 중지 단어 필터링 데이터에서 중복되는 데이터를 선별하여 제거하는 중복 제거 필터링을 수행하여 중복 제거 필터링 데이터를 생성한다. 자연어 처리부(130)는 중복 제거 필터링 데이터에서 술어에 해당하는 데이터를 기 정의된 의미가 부여된 동작 정보와 매칭하여 자연어토큰을 추출할 수 있다.
토큰화에 대해 좀더 구체적으로 설명하면, 본 발명의 일 실시예에서 토큰화는 크게 자연어 토큰화와 수식 토큰화로 구분될 수 있는데, 이 중에서 자연어 토큰화란 조합 데이터(수학 문제 또는 복합문장)에 포함된 자연어를 공백(Space)을 기준으로 분리한 결과물에 해당하는 각각의 단어를 자연어 토큰으로 인식하는 과정을 말한다. 한편, 수식 토큰화란 조합 데이터에 포함되는 수식을 파싱(Parsing)한 후 얻게 되는 개별 단위 정보를 수식 토큰으로 인식하는 과정을 말한다.
[예 1] Find the function value 9y3 + 8y2 - 4y - 9 with y=-1
예를 들어서, [예 1]에서 자연어 토큰에 해당하는 정보는 'Find', 'the', 'function', 'value', 'with' 가 되며, 수식 토큰은 파싱을 통해서 정보를 추출한 후에 반환되는 값인 다항식(Polynomial), 최고 차수(Maxdegree=3), 항의 수(Numofterm=4), 컨디션(Condition, y=-1) 등이 될 수 있다.
또한, 중지단어 필터링에 대하여 상세히 설명하면, 중지 단어란 문장이나 수식의 분석에 있어서 필요 없는 토큰에 해당하는 부분을 제거하기 위해서 미리 정의해 놓은 단어들의 집합을 의미한다. 즉, [예 1]의 단어들 중에서 'the'와 같은 단어(이외에도 a나 to 등)는 중지단어로서 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치(100)에서 사전(Dictionary) 형태로 미리 정의되어 있다. 여기서, 사전은 단어의 집합을 포함하는 리스트를 의미한다. 즉, 자연어 처리부(130)는 자연어 토큰을 생성한 후 분석에 필요 없는 부분인 중지단어를 제거하는 과정을 수행하게 되는데, 중지 단어 필터링은 수학 문제가 길어질 경우(서술형 문제 등)에 분석 과정에 너무 많은 토큰이 들어가는 것을 방지해 주며, 더불어 수학문제의 처리 속도를 향상시키기 위해 동작한다. 그리고, 중복제거 필터링은, 예를 들어, "이 방정식에서 하나의 해는 3인데, 방정식이 가지고 있는 다른 해를 구하시오." 라는 수학문제가 있는 경우 자연어를 토큰화하고 나면 "방정식"과 "해"라는 토큰이 각각 두 개씩 추출될 수 있다. 이 경우 중복되는 2개의 "방정식"이라는 토큰과 2개의 "해"라는 토큰 중에서 각각 하나씩 제거하여, 제거된 데이터를 이용하여 동작정보 추출할 수 있다.
수식 처리부(140)는 복합문장으로부터 분리된 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성한다. 수식 처리부(140)는 수식을 트리 형태로 변환하고, 트리 형태로 변환된 수식에 횡단(Traverse) 과정을 수행하고, 횡단 과정이 수행된 수식에 토큰화를 수행한다. 수식 처리부(140)는 Math ML(Mathematical Markup Language)로 작성된 수식을 XML 트리 형태로 변환한 후 DOM(Document Object Model) 형태로 변환할 수 있다. 수식 처리부(140)는 수식을 구성하는 정보의 최하단 노드에서 점차 상위 노드로 전달되도록 하는 깊이 우선 검색(Depth-First Search) 방식으로 횡단을 실행하여 시맨틱 의미를 추출한다.
횡단 과정과 깊이 우선 검색에 대해 구체적으로 설명하면, 일반적으로 수식은 Math ML의 형태를 띄고 있으며, 이는 트리의 형태로 구성이 되며, 이러한 트리로부터 정보를 추출하기 위하여 이러한 트리의 노드를 검색해 나가는 과정을 횡단 과정이라 칭하며, 횡단 과정을 수행할 때, 깊이 우선 검색(Depth-First Search)을 사용할 수 있다. 깊이 우선 검색 횡단 과정은 트리의 루트(Root)에서 시작하여 자식 노드까지 들어간 후 모든 자식 노드의 검색이 끝나면 부모 노드로 이동하기 때문에, 자식 노드에서 가지고 있는 정보 모두를 부모 노드로 전달하며, 시간 복잡도 측면에서 노드 사이를 연결하는 연결선인 엣지(Edge)의 수만큼만 검색을 수행하면 되므로 효율적이다. 여기서 깊이 우선 검색을 예시하였으나 본 발명이 이에 한정되지는 않는다.
도 3은 룰을 생성하는 절차를 예시한 도면이다.
룰저장부(170)는 자연어토큰과 수학식토큰의 조합과 대응되는 동작정보를 결합한 룰을 저장한다.
여기서 룰저장부(170)에 저장되는 룰은 각각 하나 이상의 자연어토큰과 수학식토큰의 논리적인 조건과 이러한 논리적인 조건에 대응하여 생성될 수 있는 동작 정보를 포함할 수 있다.
룰을 저장하기 위해서는 수학 문제를 기반으로 해서 어떠한 자연어 토큰과 수학시맨틱 토큰 조합이 있는지 파악하는 절차를 수행한다(S310). 이는 룰의 논리적 조건(예컨대, Binary 트리 형태의 자료구조 상에서 LHS(Left Hand Side)로 저장될 수 있음)이 된다. 논리적 조건은 여러 개의 토큰으로 구성돼 있으면서 토큰들의 논리적인 관계를 정의할 수 있다. 즉, 두 개의 토큰이 동시에 만족해야만 하는 그리고(and) 조건, 두 개 중에 하나만 만족하면 되는 또는(or) 조건 등을 이용하여 다수의 자연어 토큰 및 수학식토큰을 논리적관계로 정의할 수 있다. 다음 단계로, 정의된 자연어 토큰과 수학식 토큰으로 구성된 논리적 조건에 대응하는 동작정보(Action)(예컨대 Binary 트리 형태의 자료구조 상에서 RHS(Right Hand Side)로 저장될 수 있음)를 정의하며(S320), 따라서 이와 같은 정의에 의해 동작정보를 추출하고자 하는 수학문장이 룰저장부(170)에 저장된 어느 룰의 논리적 조건을 만족하면 그에 대응되는 동작정보를 생성하는 형태가 될 수 있다. 이와 같이 정의된 룰을 화일로 생성하고(S330), 생성된 화일을 룰엔진에 XML 형태로 입력함으로써 룰저장부(170)에 저장될 수 있다(S340).
동작추출부(150)는 자연어처리부(130) 및 수식처리부(140)에서 각각 생성된 자연어토큰과 수학식토큰을 룰저장부(170)에 저장된 룰의 자연어와 수학식의 논리적 조건과 비교하여 저장된 어느 룰의 논리적 조건을 만족하면 그에 대응되는 동작정보를 추출하여 해당 복합문장의 동작정보로 생성한다.
도 7은 룰 매칭에 의해 동작정보를 추출하는 방법을 예시한 도면이다.
도 7에 예시하듯이, (A)와 같이 수학문장이 4개(P1, P2, P3, P4)가 존재하는 경우, (B)와 같이 자연어처리부(130) 및 수식처리부(140)에 의해 파싱된 결과가 생성될 수 있다. 예를 들어, P1의 경우, 자연어처리부(130)에 의해 파싱된 결과 수식명(Name)이 "Find"이고 그 타입은 동사(VB)임을 나타내고, 수식처리부(140)에 의해 파싱된 결과가 방정식(Equation)이 맞고(True), 다항식(Polynomial)이 맞음(True)을 나타내며 이를 (C)와 같이 저장된 룰의 논리적 조건과 비교하면 룰 R1, R2, R3 중에서 R1과 매칭됨을 알 수 있다. 따라서 (D)와 같이 매칭된 룰로부터 해당 논리적 조건을 만족하는 동작정보인 "Solve"를 동작정보로서 추출될 수 있다.
동작추출부(150)는 룰저장부(170)에 저장된 룰의 논리적조건을 만족하는 모든 동작정보를 추출할 수 있다. 만일, 자연어 토큰과 수학식 토큰 조합이 이루는 논리적 조건이 저장된 룰의 여러 가지 논리적 조건을 만족할 수도 있으며, 이 경우는 하나의 수학 문제가 여러 개의 동작정보를 포함하고 있는 경우이며, 자연어 토큰과 수학식 토큰 조합이 어떠한 논리적 조건도 만족하지 않는 경우는 해당 복합문장은 룰 생성시 수학문장의 분석에서 누락됐거나 분석과정에 포함되지 않은 항목 또는 잘못된 수학문장인 경우로 판단할 수 있다.
오브젝트생성부(160)는 자연어 파싱의 결과 생성된 자연어토큰의 대상이 되는 수식을 수학식토큰 중에서 매칭시킨다.
도 4는 룰저장부(170)로 사용되는 룰엔진의 구성 및 동작정보의 추출과정을 예시한 도면이다.
도 4에서 자연어 처리부(130)에서 추출된 자연어의 토큰과 수식처리부(140)에서 추출된 수학식의 시맨틱 의미를 갖는 수학식 토큰은 해당 수학식문제가 가진 전체 동작의 의미를 추출하기 위해서 사용된다. 앞서 설명한 것과 같이 수학식 문제의 전처리 과정(Pre-processing)을 통해서 어떤 자연어 토큰과 어떤 수학식 시맨틱 토큰이 들어왔을 때, 추출될 동작정보는 미리 XML로 입력되어(S410) 룰(rule)로 정의되어 저장된다(S420). 분석하고자 하는 복합문장은 자연어토큰과 수학식 토큰으로 분리 파싱되며(S430, S440), 각 토큰들은 사실(Fact)로써 동작추출부(150)에 입력되고(S450), 동작추출부(150)는 룰을 검색할 수 있는 룰 엔진을 구동하여 룰이 정의되어 저장된(예컨대, XML 형태로) 룰저장부(170)를 참조한다(S460). 룰 엔진은 입력된 사실과 저장된 룰을 비교하여 논리적 조건을 만족하는 해당 룰의 동작정보를 발생한다(S470).
도 5는 수학 오브젝트를 획득하는 절차에 대해서 간략히 도시한 도면이다.
도 5의 왼쪽 부분의 흐름도(S540, S550, S560)는 자연어의 내부에 수학 문제에서 알고 있어야만 하는 기법(Technique), 정의(Definition), 정리(Theorem) 등의 지식(Knowledge)에 해당하는 정보를 추출한다. 이러한 정보는 문제 분석을 통해서 필요한 정보가 더 있는 경우, 원하는 형태의 범주(Category)를 만들고 추가할 수 있다.
도 5에서 오른쪽 부분의 흐름도(S510, S520, S530)는 W3C에서 표준화된 MathML의 형태로 들어오는 수학식의 파싱(parsing)을 통해서 시맨틱 정보를 추출하는 과정을 나타낸다. 즉, 수식처리부(140)는 수학식토큰이 입력되면(S510), 일반 DOM(Document Object Model)으로 XML을 트리 형태로 만든 후에 깊이 우선 검색(Depth First Search)를 통해서 가장 낮은 노드의 정보를 파악하고 상위 노드로 전달하는 식으로 정보를 수집하여 수학식을 파싱하고(S520) 시맨틱정보를 추출한다(S530). 수학식의 시맨틱 정보 추출에 관한 기술은 본 발명의 범위를 벗어나기 때문에 자세한 언급을 생략한다.
자연어가 입력되면(S540), 자연어를 파싱하여 자연어토큰을 생성하고(S550), 생성된 자연어토큰의 대상이 되는 수식을 수식처리부(140)에서 생성된 수학식토큰 중에서 매칭시키는 과정을 수행하여 해당 수학 오브젝트를 추출하여(S560) 자연어토큰과 결합된 형태로 수학식 오브젝트를 저장한다(S570).
여기서, 수학식 오브젝트는 저장하는 방법에 따라서 다양한 형태로 저장이 가능하며, 이는 병렬, 직렬, 내포(nested) 형태 등으로 표현될 수 있다. 즉, 하나의 수학식 오브젝트 내에 다수의 수학식 오브젝트가 직렬로 배열되거나 병렬로 배열되거나 하나의 수학식 오브젝트 내에 다른 수학식 오브젝트가 포함되는 형태가 될 수 있다.
본 발명의 실시예는 수학 문제의 동작정보와 수학 오브젝트는 수학 문제가 무엇을 하는 것인지, 어떤 내용을 포함하고 있는지에 대한 정보를 모두 포함하고 있다. 이런 수학 문제 시맨틱 정보를 바탕으로 활용할 수 있는 범위는 아주 광범위하다. 예를 들면, 어떤 사람이 이차 방정식을 푸는 문제를 연습하고 싶다고 하면, 현재의 수학 문제처럼 자연어를 비교하고, MathML 형태의 XML을 모두 파싱하고 원하는 정보가 있는지 확인하는 절차를 거치는 대신에, 미리 추출한 정보를 바탕으로 원하는 정보를 빠른 시간에 제공할 수 있는 것이다. 또한, 검색된 문제 간의 연관성(ranking)을 파악하는 과정에서도 사용될 수 있고, 이런 동작은 사용자로 하여금 최적의 검색 결과를 얻을 수 있도록 도와줄 수 있다.
도 6은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출방법을 설명하기 위한 순서도이다.
본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출방법은 자연어)와 수식이 포함된 복합문장을 수신하는 정보입력단계(S610), 복합문장에서 자연어 및 수식을 분리하는 분리단계(S620), 분리된 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리단계(S630), 분리된 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리단계(S640), 생성된 자연어토큰과 수학식토큰을 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 비교하여 복합문장의 동작정보를 추출하는 동작추출단계(S650) 및 생성된 자연어토큰의 대상이 되는 수식을 생성된 수학식토큰 중에서 매칭시키는 오브젝트생성단계(S660)를 포함한다.
여기서, 정보입력단계(S610)는 정보입력부(110)의 동작에 대응되며, 분리단계(S620)는 분리부(820)의 동작에 대응되며, 자연어처리단계(S630)는 자연어처리부(130)의 동작에 대응되며, 수식처리단계(S640)는 수식처리부(840)의 동작에 대응되며, 동작추출단계(S650)은 동작추출부(150)의 동작에, 오브젝트생성단계(S660)는 오브젝트생성부(160)의 동작에 각각 대응되므로 상세한 설명은 생략한다.
전술한 바와 같이 도 6에 기재된 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 발명의 일 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명의 일 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
도 8은 본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치가 클라우드 컴퓨팅으로 데이터를 제공하는 시스템에 대한 예시도이다.
본 발명의 일 실시예에 따른 복합문장의 시맨틱 정보 추출장치가 클라우드 컴퓨팅으로 데이터를 제공하기 위해서는 단말기(810), 통신망(820) 및 복합문장의 시맨틱 정보 추출장치(100)를 포함한 시스템이 필요하다.
여기서, 단말기(810)는 사용자의 명령 또는 조작에 따라 통신망(820)을 경유하여 각종 데이터를 송수신할 수 있는 단말기를 말하는 것이며, 태블릿 PC(Tablet PC), 랩톱(Laptop), 개인용 컴퓨터(PC: Personal Computer), 스마트폰(Smart Phone), 개인휴대용 정보단말기(PDA: Personal Digital Assistant) 및 무선 통신 단말기(Wireless Communication Terminal) 등 중 어느 하나일 수 있다. 또한, 단말기(810)는 통신망(820)을 통하여 데이터 읽거나 입력 및 저장, 네트워크, 컨텐츠 사용 등의 서비스를 이용할 수 있는 클라우드 컴퓨팅(Cloud Computing)을 지원하는 클라우드 컴퓨팅 단말기가 될 수 있다. 즉, 단말기(810)는 통신망(820)을 경유하여 복합문장의 시맨틱 정보 추출장치(100)에 접속하기 위한 프로그램을 저장하기 위한 메모리, 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하고 있는 장치를 의미한다. 즉, 단말기(810)로는 통신망(820)에 연결되어 복합문장의 시맨틱 정보 추출장치(100)와 클라이언트-서버 통신이 가능하다면 그 어떠한 단말기도 가능하며, 노트북 컴퓨터, 이동통신 단말기, PDA 등 여하한 통신 컴퓨팅 장치를 모두 포함하는 넓은 개념이다. 한편, 단말기(810)는 터치 스크린을 구비한 형태로 제작되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
단말기(810)는 복합문장의 시맨틱 정보 추출장치(100)로 복합문장을 입력하고 복합문장의 시맨틱 정보 추출장치(100)는 통해 클라우드 컴퓨팅(Cloud Computing) 방식으로 복합문장의 복합문장의 시맨틱 정보를 추출하고 단말기(810)으로 제공할 수 있다. 즉, 단말기(810)는 복합문장의 시맨틱 정보 추출장치(100)로부터 클라우드 컴퓨팅 방식으로 데이터의 입출력을 위하여 복합문장의 시맨틱 정보 추출장치(100)와의 입출력 인터페이스를 제공하는 별도의 입출력 인터페이스부를 포함할 수 있으며, 입출력 인터페이스부를 통해 복합문장의 시맨틱 정보 추출장치(100)에 저장된 저장 매체에 대한 데이터 읽기 및 쓰기가 수행되도록 하는 인터페이스 제어부를 포함할 수 있다. 이에 대해 좀 더 구체적으로 설명하면, 단말기(8710)는 입출력 인터페이스부를 통해 자연어 및 수식의 조합으로 이루어진 복합문장을 복합문장의 시맨틱 정보 추출장치(100)로 입력할 수 있고, 복합문장의 시맨틱 정보 추출장치(100)는 자연어와 수식이 포함된 복합문장을 수신하고 복합문장에서 자연어 및 상기 수식을 분리한 후, 분리된 자연어를 토큰화하여 자연어토큰을 생성하고 분리된 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하고 자연어와 수학식의 논리적 조건 및 논리적 조건에 대응되는 동작정보를 결합한 룰을 이용하여 생성된 자연어토큰과 수학식토큰을 저장된 룰의 논리적 조건과 비교하여 룰로부터 복합문장의 동작정보를 추출하므로, 실질적으로 단말기(810)에서는 어떠한 어플리케이션의 탑재 없이도 복합문장의 시맨틱정보를 추출할 수 있다.
통신망(820)은 인터넷망, 인트라넷망, 이동통신망, 위성 통신망 등 다양한 유무선 통신 기술을 이용하여 인터넷 프로토콜로 데이터를 송수신할 수 있는 망을 말하며, 단말기(810)와 복합문장의 시맨틱 정보 추출장치(100) 간에 데이터를 중계하는 기능을 수행한다.
복합문장의 시맨틱 정보 추출장치(100)는 클라우드 컴퓨팅 방법으로 단말기(810)에게 복합문장의 시맨틱정보를 추출할 수 있도록, 단말기(810)로 하여금 복합문장의 시맨틱 정보 추출장치(100)에 저장된 저장 매체에 대한 데이터의 읽기 및 쓰기가 수행되도록 하되, 자연어 및 수식의 조합으로 이루어진 복합문장이 입력되면, 복합문장에서 자연어 및 수식을 각각 분리하며, 분리된 자연어 및 수식을 구성하고 있는 각각의 정보를 분석하여 시맨틱 의미를 추출하고, 자연어토큰 규칙을 참조하여 자연어토큰의 의미에 대응되는 동작정보를 추출하여 기록매체에 저장하며, 해당 기록매체의 데이터를 단말기(810)로 전송함으로써, 단말기(810)에서 어플리케이션의 탑재 없이 복합문장의 논리적 표현을 변환할 수 있도록 하는 클라우드 컴퓨팅을 제공할 수 있다. 즉, 복합문장의 시맨틱 정보 추출장치(100)는 클라우드 컴퓨팅 방식으로 복합문장의 시맨틱 정보를 추출한 결과를 저장하는 시맨틱정보 추출부(832)와 단말기(810)로 하여금 시맨틱정보 추출부(832)에 의해 저장 매체에 저장된 데이터의 읽기 및 쓰기가 수행되도록 하는 클라우드 컴퓨팅부(834)를 구비할 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 컴퓨터 프로그램으로서 구현될 수도 있다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
이상에서 설명한 바와 같이 본 발명의 실시예에 의하면, 자연어와 표준화된 수학식으로 구성된 수학문제에 포함된 의미론적인 시맨틱 정보를 자동으로 추출하는 효과가 있어 산업상 이용가능성이 크다.

Claims (12)

  1. 자연어와 수식이 포함된 복합문장을 수신하는 정보입력부;
    상기 복합문장에서 상기 자연어 및 상기 수식을 분리하는 분리부;
    분리된 상기 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리부;
    분리된 상기 수식을 구성하고 있는 각각의 구성 정보를 분석하여 수학식과 관련된 의미에 따라 구분한 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리부;
    하나 이상의 자연어토큰과 하나 이상의 수학식토큰 간의 토큰 조합에 의해 구성 가능한 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 저장하는 룰저장부; 및
    상기 자연어처리부로부터 생성된 자연어토큰 및 상기 수식처리부로부터 생성된 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 목적을 나타내는 상기 복합문장의 동작정보를 추출하는 동작추출부
    를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  2. 제 1항에 있어서,
    상기 복합문장의 시맨틱 정보 추출장치는,
    상기 자연어토큰의 대상이 되는 수식을 상기 수학식토큰 중에서 매칭시켜 수학 오브젝트를 생성하는 오브젝트생성부를 추가로 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  3. 제 1항에 있어서,
    상기 동작추출부는,
    상기 룰로부터 상기 논리적조건을 만족하는 모든 동작정보를 추출하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  4. 제 1항에 있어서,
    상기 수식은,
    컨텐츠 기반의 MathML(cMathML) 형태로 생성된 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  5. 제 2항에 있어서,
    상기 수학 오브젝트는,
    병렬, 직렬 및 내포형태 중 하나 이상의 형태로 표현되는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  6. 단말기로부터 자연어와 수식이 포함된 복합문장이 입력되는 경우, 분리된 자연어를 토큰화하여 자연어토큰을 생성하고 분리된 상기 수식을 파싱하고 시맨틱의미를 추출하여 수학식토큰을 생성하고, 자연어와 수학식의 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 이용하여 상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 동작정보를 추출하는 시맨틱정보 추출부; 및
    상기 단말기로 하여금 상기 복합문장의 입력 및 상기 동작정보에 대한 읽기가 수행되도록 하는 클라우드 컴퓨팅부
    를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출장치.
  7. 자연어와 수식이 포함된 복합문장을 수신하는 정보입력단계;
    상기 복합문장에서 상기 자연어 및 상기 수식을 분리하는 분리단계;
    분리된 상기 자연어를 토큰화하여 자연어토큰을 생성하는 자연어처리단계;
    분리된 상기 수식을 구성하고 있는 각각의 구성 정보를 분석하여 수학식과 관련된 의미에 따라 구분한 시맨틱의미를 추출하여 수학식토큰을 생성하는 수식처리단계;
    하나 이상의 자연어토큰과 하나 이상의 수학식토큰 간의 토큰 조합에 의해 구성 가능한 논리적 조건 및 상기 논리적 조건에 대응되는 동작정보를 결합한 룰을 저장하는 룰저장단계; 및
    상기 생성된 자연어토큰과 수학식토큰을 상기 저장된 룰의 논리적 조건과 비교하여 상기 저장된 룰로부터 상기 복합문장의 목적을 나타내는 상기 복합문장의 동작정보를 추출하는 동작추출단계
    를 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법.
  8. 제 7항에 있어서,
    상기 복합문장의 시맨틱 정보 추출방법은,
    상기 자연어토큰의 대상이 되는 수식을 상기 수학식토큰 중에서 매칭시켜 수학 오브젝트를 생성하는 오브젝트생성단계를 추가로 포함하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법.
  9. 제 7항에 있어서,
    상기 동작추출단계는,
    상기 룰로부터 상기 논리적조건을 만족하는 모든 동작정보를 추출하는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법.
  10. 제 7항에 있어서,
    상기 수식은,
    컨텐츠 기반의 MathML(cMathML) 형태로 생성된 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법.
  11. 제 8항에 있어서,
    상기 수학 오브젝트는,
    병렬, 직렬 및 내포형태 중 하나 이상의 형태로 표현되는 것을 특징으로 하는 복합문장의 시맨틱 정보 추출방법.
  12. 제 7항 내지 제 11항 중 어느 한 항에 의한 복합문장의 시맨틱 정보 추출방법의 각 단계를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020100138531A 2010-12-02 2010-12-30 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 KR101476230B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020100138531A KR101476230B1 (ko) 2010-12-30 2010-12-30 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
CN201180064528.XA CN103299292B (zh) 2010-12-02 2011-12-02 用于处理自然语言和数学公式的方法及其设备
PCT/KR2011/009333 WO2012074338A2 (ko) 2010-12-02 2011-12-02 자연어 및 수학식 처리 방법과 그를 위한 장치
US13/908,366 US20130268263A1 (en) 2010-12-02 2013-06-03 Method for processing natural language and mathematical formula and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100138531A KR101476230B1 (ko) 2010-12-30 2010-12-30 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체

Publications (2)

Publication Number Publication Date
KR20120076810A KR20120076810A (ko) 2012-07-10
KR101476230B1 true KR101476230B1 (ko) 2014-12-26

Family

ID=46710379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100138531A KR101476230B1 (ko) 2010-12-02 2010-12-30 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체

Country Status (1)

Country Link
KR (1) KR101476230B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820564B (zh) * 2023-07-06 2024-04-02 四川大学 程序语言的统一形式语义化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030052600A (ko) * 2001-12-21 2003-06-27 한국전자통신연구원 유/무선 인터넷을 이용한 수식 기호 편집장치 및 방법
KR20090061844A (ko) * 2007-12-12 2009-06-17 주식회사 케이티 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030052600A (ko) * 2001-12-21 2003-06-27 한국전자통신연구원 유/무선 인터넷을 이용한 수식 기호 편집장치 및 방법
KR20090061844A (ko) * 2007-12-12 2009-06-17 주식회사 케이티 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20120076810A (ko) 2012-07-10

Similar Documents

Publication Publication Date Title
Bengfort et al. Applied text analysis with Python: Enabling language-aware data products with machine learning
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
KR101431530B1 (ko) 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
US20130268263A1 (en) Method for processing natural language and mathematical formula and apparatus therefor
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US10013404B2 (en) Targeted story summarization using natural language processing
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
WO2018113532A1 (zh) 信息抽取方法和系统
CN101887414A (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
CN102609427A (zh) 舆情垂直搜索分析系统及方法
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
CN100361124C (zh) 用于词分析的系统和方法
JP2005250980A (ja) 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101684579B1 (ko) 지식 생성 시스템 및 방법
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
KR101476230B1 (ko) 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101499571B1 (ko) 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치
JP5228451B2 (ja) 文書検索装置
KR20170065417A (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
JP2007011973A (ja) 情報検索装置及び情報検索プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171204

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee