KR100379735B1 - 코드화를 통한 자연어 처리장치 및 방법 - Google Patents

코드화를 통한 자연어 처리장치 및 방법 Download PDF

Info

Publication number
KR100379735B1
KR100379735B1 KR10-2000-0030188A KR20000030188A KR100379735B1 KR 100379735 B1 KR100379735 B1 KR 100379735B1 KR 20000030188 A KR20000030188 A KR 20000030188A KR 100379735 B1 KR100379735 B1 KR 100379735B1
Authority
KR
South Korea
Prior art keywords
sentence
code
unit
database
information
Prior art date
Application number
KR10-2000-0030188A
Other languages
English (en)
Other versions
KR20010109047A (ko
Inventor
박홍원
Original Assignee
박홍원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박홍원 filed Critical 박홍원
Priority to KR10-2000-0030188A priority Critical patent/KR100379735B1/ko
Priority to JP2000317158A priority patent/JP2001344237A/ja
Publication of KR20010109047A publication Critical patent/KR20010109047A/ko
Application granted granted Critical
Publication of KR100379735B1 publication Critical patent/KR100379735B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 단어사전 데이터베이스와; 서술부의 다양한 정보를 언어별 특성에 관계없이 양태, 상, 시제, 존비를 포함하는 정보로 서술부를 통합서술부코드화 할 수 있는 정보를 가진 통합서술부코드 데이터베이스와; 문장의 어순과 격정보와 상기 통합서술부코드에 따라 다양한 문장을 코드화한 인식부 문형코드 데이터베이스와; 상기 인식부 문형코드에 대응하고, 해당 문형에 대한 정보를 가진 생성부 문형코드를 가진 생성부문형코드 데이터베이스와; 처리할 문장을 입력받는 입력부와; 상기 입력된 문장에 존재하는 단어를 상기 단어사전 데이터베이스로부터 해당 단어를 검색하는 단어사전검색부와; 상기 입력된 문장 중 서술부의 양태, 상, 시제, 존비를 기준으로 상기 통합서술부코드 데이터베이스에서 상기 통합서술부코드를 부가하는 통합서술부 처리부와; 상기 단어사전검색부에서 확정된 단어의 어순과 격정보를 포함하는 통사적 정보 및 상기 통합서술부 처리부에서 부가된 통합서술부코드를 정보로 하여 상기 인식부문형코드 데이터베이스에서 인식부문형코드를 검색하는 문형인식처리부와; 상기 검색된 인식부 문형코드와 대응하는 생성부 문형코드를 상기 생성부 문형코드데이터베이스에서 찾고, 상기 생성부문형코드의 문형정보에 따라 생성문을 형성하는 문형생성처리부와; 상기 생성문에 따라 필요한 작업을 수행하는 처리부를 포함하는 자연어처리장치를 제공한다.
이 발명은 특히 3 개 국어 이상을 사용하는 다국어간에 동시에 번역이 진행될 수 있는 이점이 있고, 주문형 정보검색시스템이나, 감정정보생성시스템이나, 자연어 명령시스템, 자연어 대화시스템 등에 적용 및 활용이 가능하다.

Description

코드화를 통한 자연어 처리장치 및 방법{Method and appratus for computing natural language using codes}
본 발명은 자연어를 처리하는 방법 및 장치에 관한 것으로, 보다 상세하게는 자연어를 번역하거나, 의미를 인식하는 등 다양한 분야에서 필요로하는 자연어처리방법 및 장치에 관한 것이다.
자연어 처리가 필요한 분야는 광범위하고 점점 그 범위가 넓어지고 있고, 자연어 처리는 하나의 공학분야로 자리잡고 있는 실정이다. 예를 들어, 기계번역에도 필요하고, 정보검색에도 필요하고, 음성인식기술의 발달로 기계와의 대화 및 명령 등폭넓게 적용된다.
먼저 번역을 예로 들어 설명하면, 교통, 통신의 발전으로 인하여, 많은 사업은 국경을 넘어서 까지 확장되고 있지만, 아직까지 언어의 차이로 인하여 의사소통의 장애요인으로 되고 있다. 언어는 학자마다 다르나 3000내지 3500여개가 지구상에 존재하고, 이러한 언어를 분류하는 방식 중 번역작업에 있어서는 유형적 분류(typological classification)가 가장 중요하게 된다. 이 분류방법에 의해 언어는 고립어, 교착어, 굴절어 등으로 구분되고, 같은 분류라도 수많은 단어 및 문법을 외우고 익혀야 하는 문제는 여전히 남게된다.
최근에는 인터넷기술의 발전과 함께 그 응용분야도 넓어지게 되어 WWW.CSCHAT.COM과 같이 인터넷상으로 다른 언어를 가진 사람간의 채팅이 이루어질 수 있을 정도의 실시간으로 동시번역이 가능한 인터넷사이트가 소개되고 있다.
이러한 번역소프트웨어는 그동안 발전을 거듭해오면서 실질적으로 제 1 언어와 제 2 언어 사이의 번역기술은 예를 들어, 한국어와 일어, 한국어와 영어 등은 상당한 수준에 이른상태이다.
그런데 한국어와 일어는 같은 교착어종류이므로 비교적 어순과 어미의 변화 등이 유사한 점이 있어 양자간의 번역이 비교적 쉽게 이루어지는 특징이 있으나, 한국어와 영어와 같이 언어의 형태론적 특징이 차이가 있는 언어사이에는 시행착오와 같은 다양한 경험을 바탕으로 일부 문법과 결합하여 이루어지고 있는 실정이다.
그러나, 하나의 언어를 실시간으로 여러나라 언어로 번역할 수 있는 기술은 아직 개발되지 않고 있어 다국적을 가진 여러나라의 사람들이 동시에 의사소통을 할 수 있는 방법은 없고 빠른 번역성능을 가진 2국간의 소프트웨어를 이용한다고 하더라도 다수개를 사용하여 순차적으로 번역하는 방법밖에 없어 실제적으로 인터넷상에 다국적을 가진 다자간의 채팅문제에 있어서도 채팅의 즉시성을 만족시키기에는 역부족이다.
다음 문제로 엠파스닷컴(empas.com)과 같은 주문형 정보검색 시스템에 적용되는 종래의 자연어처리방식은 예컨데 "이순신의 생일은 언제입니까?"라는 질의를 입력하면, 조사와 서술어를 제외하고, 명사 즉, "이순신"과 "생일"과 "시간정보"가 동시에 나오는 것을 검색하거나, 다른 예로 "이순신이 좋아하는 사람은?"이라는 질의어에 대하여 "좋아하는"이 포함된 문장만 검색하게 된다. 따라서 "좋아하였다" 혹은 "좋아하면서"등의 활용어는 검색하지 못하고 있는 실정이고, 타국어로 된 문장도 검색할 수 없다.
또한 "고향이 부산이 아닌 회원은?"이라고 질의에 대하여 "고향","부산","회원"이 포함된 문장을 검색하는 오류를 범하고 있다.
다음으로 자연어를 처리하는 분야 중 하나인 감정정보 생성시스템의 종래의 방식을 살펴보면, 감정정보생성시스템이란 예컨데 음성인식기술을 기반으로 하여 컴퓨터와 대화를 통해 화자의 대화(또는 입력)에 반응하여 컴퓨터의 사이버캐릭터가 감정을 가지고 반응하도록 하는 것으로, 종래에 "너는 바보야"라는 말을 하면,"바보"라는 단어를 인식하여 사이버캐릭터가 인상을 찡그리도록 구성하고 있다.
그런데 이 방식에서 예컨데 "나는 바보다"라고 하면, 사이버캐릭터는 비웃거나, 웃어야 하는데 "바보"라는 단어만 보고 인상을 찡그리게 되는 문제점이 있어 제대로 감정정보생성시스템이 활성화되지 못하는 실정이다.
다음으로, 자연어 명령시스템은 사용자가 입력한 문장 혹은 화자가 발화한 문장을 인식하여 특정명령을 특정기계 혹은 특정장치에 전달하는 시스템을 말하는 데, 대표적인 예로는 게임에서 캐릭터를 조종한다거나 사용자가 탄 장치를 조종한다거나 하는데 사용되는 시스템이고, TV 등을 볼 수 있는 음성리모콘으로도 응용될 수 있다.
그런데 이러한 시스템을 살펴보면, 미리 주어진 식이나 조건에 일치하는 단어나 단어의 열이 모두 존재할 경우에만 특정명령을 수행하는 저급한 수준이다.
다음으로, 자연어 대화시스템은 인간과 컴퓨터가 대화를 나누는 시스템을 말하는 것으로, 종래 국내에 "별이는 열한살"이라는 교육용 프로그램이 있었는데, 문형에 관계없이 "몇 살"이라는 말만 들어가면, 미리 저장된 "1살이예요", "저는 태어난지 얼마 안됐어요", "왜 제 나이를 물으시나요?" 등의 문장을 번갈아 가면서 출력하도록 하는 단순한 형태이므로 지금은 거의 활용되지 않고 있다.
본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 다양한 분야에서 적용되는 자연어를 처리하는 수준을 높일 수 있는자연어 처리장치 및 자연어 처리방법을 제공하는 것이다.
본 발명의 다른 목적은 하나의 언어로 된 문장을 적어도 다른 2개의 언어로 동시적으로 번역할 수 있는 방법 및 장치를 제공하는 것이다.
도 1은 본 발명에 따른 자연어처리장치의 구성블록도
도 2는 본 발명에 따른 자연어처리방법의 플로우챠트
*도면의 주요부분에 대한 부호의 간단한 설명*
20: 단어사전데이터베이스
30:통합서술부코드 데이터베이스
40: 인식부 문형코드 데이터베이스
50: 생성부 문형코드 데이터베이스
상기 목적을 달성하기 위하여, 본 발명은 다른 언어번역기술과 마찬가지로 언어의 형태론에 기반하여, 각 언어의 문장이 공통적으로 가지는 의사표현을 분석하고, 그 의사표현을 코드화하는 데 그 핵심이 있다.
본 발명은 또한 통합서술부코드를 채택하여, 문형뿐 아니라, 언어의 형태에 관계없이 서술부의 다양한 정보 코드화하여 이를 자연어 처리에 적용하는 것이다.
본 발명은 구체적으로, 입력된 자연어의 처리단위별 단어를 수록한 단어사전 데이터베이스와; 서술부의 다양한 정보를 언어별 특성에 관계없이 양태, 상, 시제, 존비에 대한 의미를 고려하여 통합된 코드로 통일된 통합서술부코드 데이터베이스와; 다양한 문장의 어순과 격정보와 상기 통합서술부코드에 따라 문장을 코드화한 인식부 문형코드 데이터베이스와; 상기 인식부 문형코드에 대응하는 생성부문형코드를 가지고, 각 코드는 생성문에 필요한 어순과 격정보와 통합서술부코드를 가지고 있는 생성부 문형코드 데이터베이스와; 처리할 문장을 입력받는 입력부와; 상기 입력된 문장에 존재하는 단어를 상기 단어사전 데이터베이스로부터 해당 단어를 검색하는 단어사전검색부와; 상기 입력된 문장 중 서술부의 양태, 상, 시제, 존비를 기준으로 상기 통합서술부코드 데이터베이스에서 상기 통합서술부코드를 부가하는통합서술부 처리부와; 상기 단어사전검색부와 상기 통합서술부처리부에서 확정된 단어의 어순과 격정보 및 통합서술부코드를 정보로 하여 상기 인식부문형코드 데이터베이스에서 인식부문형코드를 검색하는 문형인식처리부와; 상기 검색된 인식부문형코드와 대응하는 생성부 문형코드를 상기 생성부문형코드데이터베이스에서 찾아 생성문을 형성하는 문형생성처리부와; 상기 생성문에 따라 처리하는 처리부를 포함하는 자연어처리장치를 제공한다.
본 발명이 번역시스템에 적용될 경우에는 상기 처리부는 상기 생성문형코드에 규정된 어순과 격정보 및 통합서술부코드에 따른 번역처리작업을 수행한다.
본 발명이 번역시스템에 적용될 경우에는 바람직하기로는 생성문형코드가 가진 생성문형이 2개 이상의 언어별로 구분되어 별개의 데이터베이스를 가지고 있다.
본 발명이 자연어정보검색시스템에 적용될 경우에는 상기 처리부는 상기 생성문형코드에 규정된 어순가 격정보 및 통합서술부코드에 따른 검색을 수행한다.
본 발명이 감정정보생성시스템에 적용될 경우에는 상기 처리부는 상기 생성문형코드에 규정된 바, 감정표현을 수행한다.
본 발명이 자연어 명령시스템에 적용될 경우에는 상기 처리부는 상기 생성문형코드에 규정된 바, 조작이나 반응을 수행한다.
본 발명이 자연어대화시스템에 적용될 경우에는 상기 처리부는 상기 생성문형코드에 규정된 바, 응답문을 출력한다.
본 발명은 또한 입력된 자연어의 처리단위별 단어를 수록한 단어사전 데이터베이스를 구비하는 단계와; 서술부의 다양한 정보를 언어별 특성에 관계없이 양태,상, 시제, 존비를 기준으로 서술부를 언어에 관계없이 통합하여 코드화 할 수 있는 정보를 가진 통합서술부코드 데이터베이스를 구비하는 단계와; 다양한 문장의 어순과 격정보와 상기 통합서술부코드에 따라 문장을 코드화한 인식부 문형코드 데이터베이스를 구비하는 단계와; 상기 인식부 문형코드에 대응하는 생성부문형코드를 가지고, 각 코드는 생성문에 필요한 어순과 격정보와 통합서술부코드를 가지고 있는 생성부 문형코드 데이터베이스를 구비하는 단계와; 처리할 문장을 입력받는 단계와; 상기 입력된 문장에 존재하는 단어를 상기 단어사전 데이터베이스로부터 해당 단어를 검색하는 단계와; 상기 입력된 문장 중 서술부의 양태, 상, 시제, 존비를 기준으로 상기 통합서술부코드 데이터베이스에서 상기 통합서술부코드를 부가하는 단계와; 상기 단어사전검색단계와 상기 통합서술부코드 부가단계에서 확정된 단어의 통사적 정보 및 통합서술부코드를 정보로 하여 상기 인식부문형코드 데이터베이스에서 인식부문형코드를 검색하는 단계와; 상기 검색된 인식부문형코드와 대응하는 생성부 문형코드에 따라 생성문을 형성하는 단계와; 상기 생성문에 따라 처리하는 단계를 포함하는 자연어처리방법을 제공한다.
본 발명에서 상기 통사적 정보는 어순과 격정보를 포함하고 있다.
본 발명이 번역방법에 적용될 경우에는 상기 생성문 형성단계는 상기 생성문형코드에 규정된 통사적 정보 및 통합서술부코드에 따른 번역처리작업을 수행한다.
본 발명이 번역시스템에 적용될 경우에는 바람직하기로는 생성문형코드가 가진 생성문형이 2개 이상의 언어별로 구분되어 별개의 데이터베이스를 가지고 있고, 상기 처리단계에서는 각 언어별로 구분된 데이터베이스의 생성문형에 따라 번역처리작업을 수행한다.
본 발명이 자연어정보검색시스템에 적용될 경우에는 상기 처리단계는 상기 생성문형코드에 규정된 어순과 격정보 및 통합서술부코드에 따른 검색을 수행한다.
본 발명이 감정정보생성시스템에 적용될 경우에는 상기 처리단계는 상기 생성문형코드에 규정된 바, 감정표현을 수행한다.
본 발명이 자연어 명령시스템에 적용될 경우에는 상기 처리단계는 상기 생성문형코드에 규정된 바, 조작이나 반응을 수행한다.
본 발명이 자연어대화시스템에 적용될 경우에는 상기 처리단계는 상기 생성문형코드에 규정된 바, 응답문을 출력한다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 설명한다.
먼저 도 1은 본 발명에 따른 제 1 실시예인 번역시스템의 블록도로서, 도시한 바와 같이, 제 1 언어로 된 피번역 문장을 입력받는 입력부(10)를 구비하고 있고, 입력된 문장에 대해 단어별 정보를 가진 단어사전 데이터베이스(20)를 구비하고 있고, 이 단어별 검색수행은 단어사전검색부(25)에서 수행한다. 이 입력부(10)는 여러 가지 다양한 입력장치에 의해 입력받을 수 있고, 단어사전 데이터베이스(20) 및 단어사전 검색부(25)는 여러 가지 다양한방법으로 설계할 수 있고, 이는 본 발명의 요지가 아니다.
그런데 본 발명의 실시예에서는 통합서술부코드 데이터베이스(30)를 구비하고 있는 바, 이는 서술부에 대하여 언어의 특성에 관계없이, 예컨데, 해당언어가굴절어, 교착어 등 언어의 형태론적 구분에 관계없이, 양태(Modality), 상(Aspect), 시제(Tense), 존비(Respect)를 기준으로 코드화할 수 있는 정보를 가지고 있다. 상기 입력된 문장에 대하여 서술부에 통합서술부코드를 부가하는 것은 통합서술부 처리부(35)이다.
예컨데 한국어인 경우 본용언, 보조용언의 선후관계와 어미활용에 대하여 주목하고 즉, 이를 데이터베이스화하여 용언의 속성과 어미활용형태에 따라 코드를 부여하고 있고, 일본어인 경우에는 복합동사, 조동사의 결합과 어미활용에 대하여 주목하고, 영어인 경우에는 동사와 부정사, 분사, 조동사와의 관계에 주목하고, 중국어인 경우에는 동사와 조동사, 허사와의 관계에 주목하고, 이들의 속성과 시제를 나타내는 부사어에 따라 코드를 부여한다.
즉, 구체적인 예를 들면, 한국어 "사랑하였다"는 과거시제이고, 높임이 없는 말이다 라는 정보를 기준으로 통합서술부코드를 부여하고, 한국어의 "사모하였다""싫어하였다"라는 것과 동일한 코드를 부여할 수 있다.
이는 영어에서 "loved","disliked","helped"와 동일한 코드를 부여받는다고 볼 수 있다.
즉, 통합서술부 코드는 적어도 4자리를 가지고 있는 것이 바람직한 바, 각 자리는 양태(Modality), 상(Aspect), 시제(Tense), 존비(Respect)에 대한 정보를 지니고 있고, 물론 다른 성격을 추가하여 코드화할 수 있고, 이 경우에는 코드의 자리수는 더 많아질 것이다. 예컨데 시제에 대하여 과거완료는 0, 과거는 1, 현재는 2, 현재완료는 3, 미래는 4, 미래완료는 5 등과 같이 구분할 수 있을 것이다.
본 발명은 또한 인식부 문형코드 데이터베이스(40)를 가지고 있는 바, 다양한 문장의 번역단위별 어순과 격정보와 같은 통사적정보(syntactical information) 및 상기 통합서술부 처리부(35)에서 부가된 통합서술부코드에 따른 문형코드를 가지고 있다. 즉, 한국어로 [형용사+명사+조사+명사+조사+동사]의 순서이고, 이 문장의 통합서술부코드가 [SXXX0011]인 경우에는 코드가 예컨데, "4784322"라고 기재되어 있고, 입력된 문장의 인식부 문형코드를 검색하는 것은 문형인식 처리부(45)에서 수행한다.
본 발명에서는 생성부 문형코드 데이터베이스(50)를 구비하고 있는 바, 이는 제 2 언어 그리고/또는 제 3 언어 등에 대한 동일한 코드나 대응하는 코드를 가지고 있고, 각 해당언어의 번역단위별 어순과 격정보와 같은 통사적 정보 및 통합서술부코드가 표시되어 있다.
즉, "4784322"라는 한국어 인식문형코드에 대하여 일본어는 "4784322"라는 동일한 코드 또는 "784322-1"이라는 대응하는 코드를 가지고 일본어의 어순과 격정보와 같은 통사적정보 및 통합서술부코드를 가지고 있다.
이 생성문형코드를 검색하는 것은 문형생성처리부(55)에서 수행한다.
즉, 생성문형코드에 따라 번역작업을 수행하고 이때 각 번역단위별 역어를 대입하는 과정이 수행된다. 이때 상기 단어사전데이터베이스(25) 또는 별개의 역어 데이터베이스가 개입될 수 있다.
이후 이 번역문은 처리부(60)인 다양한 출력장치인 출력부를 통해 출력된다.
도 2를 참조하여, 보다 구체적인 예를 들면, 입력부를 통해 입력된(S1) 한글로 된 "내가 이 영토의 지배자다"를 타언어로 번역함에 있어, "내"를 명사(구)로 인식하고, "가"는 조사, "이 영토"를 명사구로, "의"를 조사로, "지배자"를 명사구로 "다"를 어미로 인식을 하여야 하고(S2) 이는 여러 가지 방법이 있으나 본 발명에서는 이러한 번역단위별로 인식하는 방법에 대하여는 한정을 두지 않고 있고, 여러 가지 다양한 방법을 따를 수 있다. 이때 단어사전 데이터베이스에는 이러한 번역단위별로 처리할 수 있는 충분한 자료가 있음은 통상의 방법과 동일하다.
이러한 번역단위에 대한 대응하는 언어의 번역어를 준비하는 것은 종래와 동일하게 방대한 데이터베이스를 필요로 하고 이 것을 본 발명에서는 단어사전데이터베이스(20)라 한다.
그런데 본 발명에서 유의하고 있는 것은 이 문장이 첫 번째 명사 +첫번째 조사(이 조사는 "이" 또는 "가" 중 하나이고) +두번째 명사구+두번째 조사(이 조사는 "의"이고)+세번째 명사+첫번째 서술격조사(이 조사는 "이다" 또는 "다"이다)와 같이, 특정번역단위의 종류와 순서 그리고 각 조사의 격에 대해서는 명확히 되어야 한다. 예컨데 번역단위는 명사(구), 조사, 서술부(구)와 같이 될 수 있다.
그리고 어미는 "이다"이므로, 현재서술형이라는 점에 주목하고 있고, 이는 어미활용이 심한 교착어에서는 중요한 요소이다.이러한 용언의 다양한 형태 즉,양태, 상, 시제, 존비 등에 따라 성격을 정하고, 이 성격에 따라 코드화하는 것(S3)이 본 발명의 첫 번째 핵심이고, 이 명세서에서는 이를 통합서술부코드라 하고, 이를 데이터베이스화 한 것을 통합서술부코드데이터베이스(30)라 한다.
본 발명은 또한 여러 가지 종류의 언어에 대한 이러한 수많은 문장을 분석하고, 번역단위별로 어순과 격조사의 성격과 같은 통사적 정보, 통합서술부코드에 따라 각 문장에 코드를 부여한다. 즉, 다수의 문장이 동일한 코드를 가질 있고, 이를 문형코드라 한다. 즉, 이 문장은 현재서술형이고, 주어가 있고, 주어를 설명하는 형식의 문장이고, 설명되는 것에는 명사구가 두 개가 있고, 이 명사구는 서로 소유격적인 관계에 있고, 한글에서는 위의 첫 번째 명사가 주어가 되고, 두, 세 번째 명사구인 "이 영토"와 "지배자"가 소유격인데 세 번째 명사구가 소유자적관계에 있는 형식이다. 이를 예로 들어 코드로서 "2222321"라고 부여한다고 한다면, 하나의 언어에는 다양한 문형이 존재하게 되므로 이러한 것을 가능한 자세히 분류하여 코드화하고 각 코드별로 어순과 격조사의 성격을 기록하여 인식부 문형코드 데이터베이스(40)화 한다. 따라서 이 코드부여는 가능한 언어인류학적 관점에서 자세히 분류하고, 각 언어사이에 표현할 수 있는 감정이나 방식이 모두 포함되어야 한다. 예컨데 소망, 명령, 가정 등에 대한 정보별로 세세히 구분되어야 한다.
즉, 이 인식부 문형코드 데이터베이스를 검색함으로써 인식부문형코드를 알 수 있게된다.(S4)
또한 영어, 일어, 중국어 등에도 이러한 코드는 모두 있고, 이는 동일하게 현재서술형이고, 주어를 설명하는 형식이고, 피 설명부는 두 개의 명사구가 있고, 이 두 개의 명사구는 서로 소유관계에 있게 되고 이러한 것은 동일한 코드로 또는 연계된 코드로 각 제 1 언어의 코드에 대하여 서로 링크시켜 이를 생성문형코드 데이터베이스화 한다.
좀 더 자세히 설명하기 위하여 위 예를 계속 들어보면, 한글의 첫 번째 명사인 "내"는 영어 및 일어에서는 어떤식으로 표현되는가 하는 것은 제 1 데이터베이스에 의해 정해진다. 즉, 영어에서 "I"이고, 일어에서는 "私"이고, 중국어에서는 "我"이다. 여기서 각 문장의 명사, 조사, 어미에 대응하는 각 제 2 언어의 표현을 찾는 방법은 본 발명의 요지가 아니다.
그런데 본 발명에서는 위 코드화에 중점을 두고 있는 바, 영어를 예를 들면 영어식 표현은 "I am the ruler of this land."이다. 즉, 영어는 "첫번째 명사구+첫번째 서술격조사+두번째 명사구+of+세 번째 명사구"라는 형식으로 나타나게 된다.
즉, 2222321코드문장에 대한 각 언어의 구조를 미리 파악하여 데이터베이스화해둔 상태에서 이코드의 영어에서 첫 번째명사구는 한글의 첫 번째 명사구인 "내"의 역어가 되고, 첫 번째 서술격조사는 마지막에 오는 "이다"의 역어이고, 두 번째 명사구는 한글의 세 번째 명사구인 "지배자"의 역어가 되고, 세 번째 명사구는 한글의 두 번째 명사구인 "이 영토"가 된다.
따라서 이를 즉시 대체함으로써 번역이 가능하게 된다.
이를 프로그램적으로 예를 들어 다시 설명하면 이하와 같다.
입력된(S1) 문장이 한글로 "내가 이 영토의 지배자다"일 경구, 번역단위별 어순과 격정보로 분석하면(S2) NP[0];J[0].SRC==이∥가;NP[1];J[1].SRC==의;NP[2];VP[0].SRC==이다∥다;VP[0].UMI==SXXX0011"라고 하자. 여기서 VP[0].UMI==SXXX0011는 통합서술부코드로서, 현재서술형을 의미하는 코드라고 할 수 있다. 이는 문장을 번역단위별로 분석하면서 서술부를 파악하고, 서술부가 현재서술형이라고 파악되면, 통합서술부코드데이터베이스(30)에서 통합서술부코드를 부가한다.(S3)
그러면 이러한 어순과 격정보를 가지고, 또한 통합서술부코드가 SXXX0011을 가진 문형을 인식부 문형코드 데이터베이스에서 찾으면 코드는 2222321이 된다.
즉, 한글이 제 1 언어인 경우 "내가 이 영토의 지배자다"라는 문장의 어순이 "첫 번째 명사(NP[0]) +첫번째 조사(J[0]) +두번째 명사구(NP[1])+두번째 조사(J[1])+세번째 명사(NP[2])+첫번째 서술격정보(VP[0])로 되어 있고,
J[0]가 "이" 또는 "가" 중 하나이고, J[1]이 "의"이고, VP[0]가 "이다" 또는 "다"이고, 현재서술격이다(UMI==SXXX0011)" 라는 정보를 파악하는 순간 이 문장은 2222321코드에 해당함을 인식부 문형코드 데이터베이스(40)로부터 바로 알 수 있다. (S4)
이 코드에 해당하는 역어의 배치는 생성부 문형코드 데이터베이스(50)에서 찾으면 아래와 같이 데이터베이스화되어 있다.(S5)
E;;2222321;;NP[0] VP[0] NP[2] of NP[1].;;
즉, 첫 번째위치에 한글의 NP[0]에 해당하는 역어를 위치시키고, 두 번째 위치에 한글의 VP[0]에 해당하는 역어를 위치시키고, 세 번째 위치에 한글의 NP[2]의 역어를 위치시키고, of를 넣고, 다음으로 한글의 NP[1]에 해당하는 역어를 위치시키고 마침표를 찍는다.(S6)
이렇게 각 언어에서 동일한 문형코드를 찾아서 문장의 순서를 알고, 그 문장의 순서에는 어떠한 순서대로 각 역어가 들어가는 지 미리 정해져 있게된다.
따라서 이 방식에 의해서 각 역어는 순서대로 위치하여 결과치로 "I am the ruler of this land."가 영어로 번역된다.
이를 출력함으로써 번역처리는 완결된다.(S7)
이를 일어와 중국어로 확장하면, 제 2 생성부 문형코드 데이터베이스(51)로부터 일어는 J;;2222321;;NP[0]はNP[1]のNP[2]VP[0].;;이고, 제 3 생성부 문형코드 데이터베이스(52)로부터 중국어는 C;;2222321;;NP[0]VP[0]NP[1]的NP[2].;;라고 미리 코드에 따른 어순 및 격정보가 체계화되어 있고, 각 역어만 순서대로 넣으면 되고, 그 결과로 일어로는 "私はこの領土の支配者だ."이고, 중국어로도 동일한 방식을 적용하면 된다.
또 다른 예를 들면, 이번에는 중국어로된 처리하고자 하는 문장이 "制造新的大????." 라고 할 때, 이 문장을 먼저 분석하여 VP[0];NP[0];J[0].SRC==?? 라는 것을 파악한다. 이 문형은 예를 들어 미리 "NP[0]를 VP[0]하라는 명령문"이라고 분석된 상태에서 인식부문형코드 데이터베이스상에 코드화되어 있고, 데이터베이스상의 문형코드를 대조하여 예를 들어 1200321라는 코드를 검색하면, 동일한 의미를 지닌 "VP가 NP를 수식하는 명령문"인 한글과 일어와 영어의 1200321코드를 생성부 문형 데이터베이스에서 찾아 위 중어의 VP[0],NP[0],J[0]가 어떻게 배치되고, 격정보가 어떻게 추가되고 배치되는지를 알아보고 즉시 대입하면 된다.
한국어의 경우 생성부 문형코드데이터베이스(40)에 "K;;1200321;;NP[0](을)를 VP[0].UMI==SOXX0045;;"이라고 정보가 저장되어 있으므로 단어사전 데이터베이스(20)의 정보를 대입하면서, 통합서술부코드인 SOXX0045의 정보에 따라 한글로 "새로운 대포를 만들어라."라고 즉시 번역되고, 제 2, 3 생성부문형코드 데이터베이스(51)(52)를 참조하면, 영어로는 "E;;1200321;;VP[0] NP[0].;;"이므로 "Make a new canon."이 되고, 일어로는 "J;;1200321;;NP[0]をVP[0].;;"이므로 "新しい大砲を作りなさい."이 된다.
물론, "만들다."에서 "만들어라"라고 바꿀 필요가 있는 바, 한글이나 일어와 같은 교착어에는 바람직하게는 코드에 양태, 상, 시제, 존비 등에 대한 정보를 포함하고 있어야 한다. 기타 역어에서 대문자 소문자로 바꾸고, 조사 중 "을"과 "를"에서 하나를 선택하는 방법은 각 언어별 처리특성에 기초하여 종래의 방법을 따른다.
본 발명의 적용례는 여러분야가 있는 바, 예를 들면, 스캔으로 문자를 인식하여 컴퓨터내에서 번역하여 문자열이나 파일형식으로 출력하는 방식이 있고, 인터넷으로의 채팅에도 이용할 수 있다.
또한 입력부(10)와 출력부 즉, 처리부(60)는 각 언어별로 구분하여 제 1 언어입력부, 제 2 언어입력부, 제 1 언어출력부, 제 2 언어출력부와 같이 세분할 수 있음은 물론이다.
또한 3개 언어 이상을 동시에 사용하는 인터넷 채팅에도 적용할 수 있음은 물론이다. 이때 각각의 데이터베이스와 이를 처리하는 각각의 처리부는 클라이언트-서버 방식으로 구성하여 서버 혹은 클라이언트에 분산하여 처리할 수 있다.
본 실시예는 또한 문자를 말로 바꾸는 TTS서비스(text to speech) 또는 그역으로 말을 문자로 바꾸는 서비스를 이용할 수 있음은 물론이고, 다양하게 2개 언어 이상을 번역하는 곳에는 모두 적용될 수 있다.
자연어를 처리하는 본 발명의 제 2 실시예는 정보검색을 방법 및 장치에 관한 것으로, 본 실시예에서는 검색명령에 관한 문장이 입력되는 입력부와; 단어사전데이터베이스와; 입력된 문장을 처리단위별로 상기 단어사전데이터베이스에서 검색하는 단어사전검색부와; 통합서술부코드를 가진 통합서술부코드데이터베이스와; 상기 입력된 문장의 서술부를 파악하여 상기 통합서술부코드 데이터베이스에서 통합서술부코드를 부가하는 통합서술부처리부와; 인식문형코드를 가진 인식문형데이터베이스와;인식문형코드를 검색하는 문형인식처리부와;상기 인식문형코드에 따라 대응하는 명령문형코드가 링크된 명령(생성부)문형데이터베이스와; 상기 명령문형데이터베이스의 명령문형코드에 따라 검색명령문장을 생성하는 문형생성처리부와; 문형생성처리부에 따른 명령문에 따라 검색하는 처리부를 구비하고 있다. 상기 제 1 실시예와 적용되는 구성이 동일하고, 의미에서만 다소 차이가 있으므로 별도의 도면은 생략한다.
예컨데, 인터넷 상에서 검색창에 "이순신의 생일은 언제입니까?"라는 질의문장을 입력하면, 이 문장을 입력부에서 인식하고, 단어사전검색부에서는 예를 들어 품사단위별로 단어사전에서 검색한다.
이때 문장의 서술부를 찾아 통합서술부코드데이터베이스에서 통합서술부코드를 부가한다.
서술부코드와 어순과 격정보 등의 통사적 정보에 따라 인식문형코드가 검색된다. 즉, 아래와 같이 표현될 수 있다.
K;;2101000;;NP[0];J[0].SRC==의;NP[1];J[1].SRC==은∥는;NP[2].ATR==Tme;VP[0].SRC==이다;VP[0].UMI==QXXX0018;;
이 인식문형코드 K;;2101000는 동일한 문형에 대하여 같은 값을 가지는 것은 당연하고, 예를 들어, "홍길동의 생일은 언제입니까"도 동일한 문형코드를 갖는다. 이렇게 확정된 인식문형코드에 대하여 대응하는 검색명령문문형코드가 있는 명령문형코드데이터베이스에는 K;;2101000;;NP[0]NP[1]NP[2].ATR<=Tme;;라고 표시되어 있다. 여기서 세 번째 출현하는 명사구(NP[2])의 의미속성이 시간속성(Tme)이므로, 한국어 문장에 대하여 정보검색 명령은 첫 번째 출현하는 명사구(NP[0])와 2번째 출현하는 명사구(NP[1])를 모두 포함하고 있는 문장 중에서 시간속성의 명사를 포함하는 문장을 검색대상문으로 선정할 수 있다.
여기서 "언제"가 시간속성이라는 것은 상기 단어사전 데이터베이스에 미리 기록되어 있고, 이러한 분류는 본 발명의 요지는 아니고 이 기술분야의 당업자가 이미 수행하고 있는 작업이다.
그런데 이를 여러나라 언어로된 문장으로도 확장할 수 있는 바, 이때 필요한 것은 필요한 번역사전이 수록된 번역사전데이터베이스만 있으면 된다.
즉, E;;2101000;;NP[0]NP[1]NP[2].ATR<=Tme;;는 영어로 된 문장 검색용이고, J;;2101000;;NP[0]NP[1]NP[2].ATR<=Tme;;는 일어로 된 문장 검색용이고, C;;2101000;;NP[0]NP[1]NP[2].ATR<=Tme;;는 중국어로 된 문장 검색용이다.
영어의 예를 들면 대응하는 단어인 "SUNSIN LEE"와 "BIRTHDAY"는 번역사전 데이터베이스에서 확정짓고, 시간에 대한 정보(YEAR, MONTH, DATE, WHEN, YESTERDAY 등)가 포함된 문장을 찾게된다. 문장을 찾는 것은 종래에 다양하게 소개되고 있는 검색엔진으로 가능하다.
또한 예컨데 "이순신이 좋아하는 사람은 누구입니까?"라는 검색문장에 대하여 K;;2122110;NP[0];J[0].SRC==이∥가;VP[0].UMI==SXXX0001;NP[1];J[1].SRC==은∥는;NP[2].ATR==Hmn;VP[1].ATR==QXXX0B03;;이라고 인식문형코드가 검색되면 "NP[0]가 '좋아하다(Lve)'의 의미속성을 가진 VP[0]하는 '사람(Hmn)'의 의미속성을 가진 NP[2]"라는 문형이라는 것을 인식하게 된다. 여기서 VP[0] 및 NP[2] 등의 의미속성은 단어사전 데이터베이스에서 확인된다.
이를 생성부 문형코드 데이터베이스 즉, 명령문형코드 데이터베이스에서는 "K;;2122110;;NP[0]VP[0].ATR<=LveNP[2].ATR<=Hmn"이라고 되어 있을 것이다.
즉, "이순신"과 사람 속성(Hmn)의 NP와 좋아한다는 속성(Lve)을 지닌 VP가 있는 문장을 검색하게 된다. 따라서 "이순신이 영랑이를 사모했으나," 또는 "이순신은 영랑이가 좋아서..""이순신은 영랑이를 흠모하여.." 등과 같은 문장을 검색할 수 있게된다.
다른 예로서, 검색문장이 "고향이 부산이 아닌 회원은 누구입니까?"라는 문장에 대해 인식부문형코드에서 검색하여 찾아진 인식부 코드는
"K;;2231200;;NP[0];J[0].SRC==이||가;NP[1];J[1].SRC==이||가;VP[0].ATR==Ngt.UMI==SXXX0001;NP[2];J[2].SRC==은||는;NP[3].ATR==Hmn;VP[1].SRC==이다;VP[1].UMI==QXXX0B03;;"이고, 상기 인식부 문형코드에 의해 이 문장은 "NP[0]가 NP[1]이 부정속성인 VP[0]하는 NP[2]는 사람속성인 NP[3]인가?"라는 형태의 문장임을 알 수 있다.
이때 부정속성(Ngt)는 단어사전데이터베이스에서 확인된다.
이에 대하여 생성부 문형코드데이터베이스에서 대응하는 생성부 문형코드를 찾으면 K;;2231200;;NP[0]!NP[1]NP[2]NP[3].ATR<=Hmn;;이 된다. 즉, 이는 "NP[1]는 출현하지 않고 NP[0]와 NP[2]와 NP[3]가 모두 발견되는 문장을 검색하시오."란 명령문에 관한 생성부 문형코드이다.
따라서, "고향이 대구인 김철수 회원은 어제 교통사고로 사망했다."라는 문장이 검색된다.
본 발명의 제 3 실시예는 감정정보생성시스템에 관한 것으로, 역시 문자 또는 대화방식의 문장이 입력되는 입력부와; 단어사전데이터베이스와; 입력된 문장을 처리단위별로 상기 단어사전데이터베이스에서 검색하는 단어사전검색부와; 통합서술부코드를 가진 통합서술부코드데이터베이스와; 상기 입력된 문장의 서술부를 파악하여 상기 통합서술부코드 데이터베이스에서 통합서술부코드를 부가하는 통합서술부처리부와; 인식문형코드를 가진 인식문형데이터베이스와; 인식문형코드를 검색하는 문형인식처리부와; 상기 인식문형코드에 따라 대응하는 감정표현 문형코드를 가진 감정표현(생성부)문형코드데이터베이스와; 상기 생성부문형코드데이터베이스의 감정표현문형코드에 따라 감정표현문장을 생성하는 문형생성처리부와; 문형생성처리부에 따른 감정표현문에 따른 처리부 즉, 감정출력부를 구비하고 있다.
예를 들어 "너는 못생겼다"라는 문장이 입력부로 들어오면, 단어사전검색부에서 처리단위별로 단위사전데이터베이스에서 검색하고, 통합서술부코드를 부가하고, 어순과 격정보를 파악하면서, "NP[0].ATR=="Hm2";J[0].SRC==은∥는;VP[0].ATR==AUg;;"는 인식부 문형코드데이터베이스에서는 예를 들어 2432230이라고 검색할 수 있게 된다.
여기서 Hm2는 예를 들어 2인칭 명사속성 즉, "당신"이나 "너"가 이에 해당하고,AUg는 외형(외관)이 나쁨을 묘사하는 형용사 속성으로 통합서술부코드에 해당하고, 이에 해당되는 단어는 "못생겼다"이외에 "호박이다", "억울하게 생겼다" "폭탄이다" 등이 될 것이다.
또한 예컨데 서술부코드 APr은 외형이 좋음을 나타내는 것으로 할 경우, "이쁘다", "잘생겼다", "핸섬하다", "우아하다" 등이 될 수 있을 것이다.
한편, 위의 예에 따라 감정표현코드를 알기위해 생성부 문형코드데이터베이스를 찾으면, "2432230;;ANGRY"라고 기재되어 있다. 즉, 이러한 문장의 어순과 격정보 및 서술부코드의 성격에 따라 파악된 인식문형코드에 대한 생성부 문형코드를 "ANGRY"라고 할 경우 이는 감정표현(명령)코드에 해당하고 이는 감정표현(명령 또는 생성부 문형)데이터베이스에서 찾는다.
이 명령코드는 예컨데 "SMILE(웃음)", "WINK(윙크)", "CLOSEEYES(심각하게 눈을 감는)"과 같이 다양한 명령문형을 만들 수 있고, 이는 캐릭터의 표정을 얼마나 많이 바꿀 수 있느냐에 달려있다.
이 명령데이터베이스에서 찾아진 명령코드에 따라 캐릭터는 표정을 바꾸게되고, 캐릭터의 표정을 바꾸는 기술은 통상의 여러 가지 방법에 따를 수 있고, 이는 본 발명의 핵심이 아니다.
한편, 이러한 방법으로 명령코드를 찾기위한 데이터베이스에는 영어와 일어, 중국어 등으로 다양하게 코드화하여 명령코드를 데이터베이스화할 수 있다.
본 발명의 제 4 실시예는 자연어 명령시스템으로 역시 문장이 입력되는 입력부와; 단어사전데이터베이스와; 입력된 문장을 처리단위별로 상기 단어사전데이터베이스에서 검색하는 단어사전검색부와; 통합서술부코드를 가진 통합서술부코드데이터베이스와; 상기 입력된 문장의 서술부를 파악하여 상기 통합서술부코드 데이터베이스에서 통합서술부코드를 부가하는 통합서술부처리부와; 인식문형코드를 가진 인식문형데이터베이스와; 인식문형코드를 검색하는 문형인식처리부와; 상기 인식문형코드에 따라 대응하는 명령문형코드를 가진 명령(생성부)문형코드데이터베이스와; 상기 생성부 문형코드데이터베이스의 명령문형코드에 따라 명령(생성)문장을 생성하는 문형생성처리부와; 상기 생성문장에 따른 처리부 즉, 작동부를 구비하고 있다.
예컨데, "뉴스채널만 차례대로 보여줘."라는 화자의 요구에 대하여 입력부에서는 음성인식기술 등과 같은 기술로 문장을 입력받고, 단어사전 검색부에서 단어를 검색하고, 아울러 통합 서술부처리부에서 통합서술부코드를 부가한다.
이렇게 파악된 정보는 예컨데 "NP[0].CHN-ATR=="Nws";J[0];VP[0].ATR==Shw;VP[0].UMI==SOXX0945;;라고 하자. 여기서 미리 단어사전데이터베이스에서는 "Nws"는 해당명사가 "뉴스채널"이라고 미리 정해놓은 경우에 해당한다.
또한 "Shw"는 "보이다"와 같이 특정 NP를 화자에게 표시해야 할 동사속성을 나타내고, UMI이하부분은 제 1 실시예와 같은 서술부코드로서 "-어/아 줘"와 같은 명령 혹은 요구의 서술부활용어미(영어나 중국어의 경우 명령문 문형)에 해당한다.
이를 문형인식 처리부에서는 인식부 문형데이터베이스를 검색하여, K;;CNT0010;;NP[0].CHN-ATR=="Nws";J[0];VP[0].ATR==Shw;VP[0].UMI==SOXX0945;;라고 되어 있으므로, 문형코드는 CNT0010이라고 파악하고, 생성문형코드데이터베이스에서 찾아보면, 예를들어 "K;;CNT0010;;SEE;;NP[0].CHN-ATR=="Nws";;"와 같이 되어 있으므로, 이에 따른 생성문은 NP[0].CHN-ATR속성에 해당되는 채널만 연속적으로 보여주는 명령어이므로 CNT0010코드에 의해 현재 방송중인 뉴스채널을 연속적으로 보여주게 된다. 이러한 명령은 음성리모콘에 미리 방송중인 프로그램을 파악할 수 있고, 작동될 수 있는 프로그램이 있으면 되므로, 이하의 처리부에서 수행하는 기술은 현재 통상 처리되는 자연어명령시스템으로 설명될 수 있으므로 생략한다.
이 역시 위에서 설명한 다른 실시예와 같이 다국어로 가능함은 당연하다. 즉, 문형코드를 해당언어에 대하여 설정해 놓고, 해당언어를 입력받아 단어사전데이터베이스 및 통합서술코드데이터베이스 및 인식부 문형코드 데이터베이스를 검색하고, 생성문형을 생성한다면, 동일한 방법으로 이루어질 수 있다.
본 발명의 제 5 실시예는 자연어 대화시스템에 관한 것으로, 문장이 입력되는 입력부와; 단어사전데이터베이스와; 입력된 문장을 처리단위별로 상기 단어사전데이터베이스에서 검색하는 단어사전 검색부와; 통합서술부코드를 가진 통합서술부코드데이터베이스와; 상기 입력된 문장의 서술부를 파악하여 상기 통합서술부코드 데이터베이스에서 통합서술부코드를 부가하는 통합서술부 처리부와; 인식문형코드를 가진 인식부 문형데이터베이스와; 인식문형코드를 검색하는 문형인식처리부와; 상기 인식문형코드에 따라 대응하는 응답문형코드를 가진 응답문(생성부)문형코드데이터베이스와; 상기 생성부 문형코드데이터베이스의 응답문형코드에 따라 응답문을 생성하는 문형생성처리부와; 응답문을 출력하는 처리부 즉, 음성처리부를 구비하고 있다.
예컨데 입력부에서 "너의 이름은 무엇이냐?"는 문장이 입력되면, 단어사전검색부 및 통합서술부 처리부에서는 이 문장이 "NP[0].ATR==Hm2;J[0].SRC==의;NP[1];J[0].SRC==은||는;NP[0].ATR==Wht;VP[0];;"라고 파악하게 된다. 여기서 NP[0].ATR==Wht;VP[0];;는 명사의 속성이 무엇(what)에 해당함을 의미하고, 이는 단어사전 데이터베이스에 준비되어 있다. 이를 인식부 문형데이터베이스에서 찾으면 K;;Q;;WHATNP010010;;NP[0].ATR==Hm2;J[0].SRC==의;NP[1];J[0].SRC==은||는;NP[0].ATR==Wht;VP[0];;라고 되어 있고, 여기서 Q는 질의부(Question)임을 알리는 코드이다.
한편, 생성부의 생성부 문형코드데이터베이스를 따르면, K;;A;;WHATNP010010;;NP[0].ATR<=Hm1;의;NP[1];은;NP[0].CNF<=NAME;라고 기록되어 있고, 문형생성처리부에서는 단어사전데이터베이스를 이용하여 "저의 이름은 아스크리스입니다."라는 문장을 생성한다.
A는 응답부(Answer)임을 알리는 코드이고, NP[0].ATR<=Hm1는 인식부에서 인식한 명사를 1인칭의 명사로 바꾸어 출력하고, NP[0].CNF<=NAME는 참조할 단어(NP[0])의 이름을 의미한다.
다른 기타문장의 예로서는
(질의부) [너는 어디에 사느냐?] → (응답부)[저는 신시아릿드에 삽니다.]
(질의부) [너의 직업은 무엇이냐?] → (응답부)[저의 직업은 사냥꾼입니다.]
등도 이러한 인식문형코드와 생성문형코드 및 단어사전데이터베이스를 활용함으로써 가능하다.
이 실시예는 게임내에 대화 반응형 캐릭터를 사용할 수 있으므로, 컴퓨터 및 비디오게임에서의 활용이 가능하고, 플레이어의 주문, 요구, 명령에 따라 게임내에서 다양하게 변수 적용할 수 있는 대화 반응형 스토리변경시스템과 같은 게임에서도 적용가능하다.
또한 퍼즐, 한글교실, ABCD교실과 같이, 어린이들과의 대화형 게임과 같은 교육용 소프트웨어에도 적용이 가능하고, 번역기능을 추가하여 외국어 작문지도시스템, 기타 외국어 관련 교육 및 강의 프로그램에 적용이 가능하다.
또한 항공기, 열차 등의 좌석예약이나 호텔예약에 자동전화예약시스템을 적용하는 것이 가능하게 된다.
또한 자폐아 또는 언어장애아들을 치료할 수 있는 재활기기에 활용할 수 있는 잇점이 있다.
이상에서 설명한 바와 같이, 본 발명은 먼저 통합서술부코드와 인식 및 생성문형코드를 채택함으로써, 어떠한 언어라도 코드만 찾게되면 바로 대입하여 번역이나 인식이 가능한 잇점이 있는 새로운 자연어처리방법을 제공하고 있다.
또한 특히 이 발명은 3개국어 이상이 사용되는 장치에도 적용되어 동시번역이 가능한 이점이 있고, 위에서 설명한 바와 같이, 주문형 정보검색시스템이나, 감정정보생성시스템이나, 자연어 명령시스템, 자연어 대화시스템 등에 적용 및 활용이 가능하다.
이상에서 본 발명에 따른 실시예를 설명하였으나, 본 발명은 이러한 실시예에 한정되는 것이 아니고 본 발명의 정신을 벗어나지 않고 다양한 변화와 변형이 가능할 것이다.
그러나 이러한 다양한 변화와 변형은 본 발명의 권리범위에 속하게 됨은 첨부된 청구범위를 통해 알 수 있을 것이다.

Claims (7)

  1. 자연어의 처리단위별 단어를 수록한 단어사전 데이터베이스와;
    서술부의 다양한 정보를 언어별 특성에 관계없이 양태, 상, 시제, 존비를 포함하는 정보로 서술부를 통합서술부코드화 할 수 있는 정보를 가진 통합서술부코드 데이터베이스와;
    문장의 어순과 격정보와 상기 통합서술부코드에 따라 다양한 문장을 코드화한 인식부 문형코드 데이터베이스와;
    상기 인식부 문형코드에 대응하고, 문형정보를 가진 생성부 문형코드를 가진 생성부 문형코드 데이터베이스와;
    처리할 문장을 입력받는 입력부와;
    상기 입력된 문장에 존재하는 단어를 상기 단어사전 데이터베이스로부터 해당 단어를 검색하는 단어사전검색부와;
    상기 입력된 문장 중 서술부의 양태, 상, 시제, 존비를 기준으로 상기 통합서술부코드 데이터베이스에서 상기 통합서술부코드를 부가하는 통합서술부 처리부와;
    상기 단어사전검색부와 상기 통합서술부처리부에서 확정된 통사적 정보 및 통합서술부코드를 정보로 하여 상기 인식부문형코드 데이터베이스에서 인식부문형코드를 검색하는 문형인식처리부와;
    상기 검색된 인식부문형코드와 대응하는 생성부 문형코드를 상기 생성부문형코드데이터베이스에서 찾아 상기 문형정보에 따라 생성문을 형성하는 문형생성처리부와;
    상기 생성문에 따라 필요한 작업을 수행하는 처리부
    를 포함하는 자연어처리장치
  2. 제 1 항에 있어서,
    상기 처리할 문장은 제 1 언어로 되어 있고,
    상기 생성문은 제 2 언어로 되어 있고,
    상기 단어사전데이터베이스는 상기 제 1 언어에 대한 제 2 언어의 역어를 가지고 있고,
    상기 문형생성 처리부는 상기 생성문 정보에 따라 상기 단어사전데이터베이스에서 역어를 찾고, 생성문형코드의 통합서술부코드의 정보에 따라 생성문을 생성하고,
    상기 처리부는 번역문을 출력하는 자연어처리장치
  3. 제 1 항에 있어서,
    상기 입력부로 입력되는 문장은 검색요구문장이고,
    상기 생성문은 검색엔진을 위한 명령문이고,
    상기 처리부는 상기 명령문에 따라 검색을 수행하는 자연어처리장치
  4. 제 1 항에 있어서,
    상기 생성문은 감정정보값이고, 상기 처리부는 상기 감정정보값에 따라 감정표현물이 감정을 표현하게 하는 자연어처리장치
  5. 제 1 항에 있어서,
    상기 생성문은 소정의 명령을 수행하는 명령문이고,
    상기 처리부는 상기 명령문에 따라 기계의 조작이나 반응을 하게 하는 자연어처리장치
  6. 제 1 항에 있어서,
    상기 생성문은 상기 인식되는 문장에 상응하는 응답문이고,
    상기 처리부는 상기 응답문을 출력하는 자연어처리장치
  7. 자연어의 처리단위별 단어를 수록한 단어사전 데이터베이스를 구비하는 단계와;
    문장 중 서술부의 다양한 정보를 언어별 특성에 관계없이 양태, 상, 시제, 존비를 포함하는 정보로서 통합된 통합서술부코드화를 위한 정보를 가진 통합서술부코드 데이터베이스를 구비하는 단계와;
    다양한 문장의 어순과 격정보와 상기 통합서술부코드에 따라 문장을 코드화한 인식부 문형코드 데이터베이스를 구비하는 단계와;
    상기 인식부 문형코드에 대응하는 생성부 문형코드를 가지고, 각 코드는 상기 처리단위별 어순과 격정보와 통합서술부코드를 가지고 있는 생성부 문형코드 데이터베이스를 구비하는 단계와;
    처리할 문장을 입력받는 단계와;
    상기 입력된 문장에 존재하는 단어를 상기 단어사전 데이터베이스로부터 해당 단어를 검색하는 단계와;
    상기 입력된 문장 중 서술부에 대하여 상기 통합서술부코드 데이터베이스에서 통합서술부코드를 부가하는 단계와;
    상기 단어사전검색단계와 상기 통합서술부코드부가단계에서 확정된 단어의 어순과 격정보 및 통합서술부코드를 정보로 하여 상기 인식부문형코드 데이터베이스에서 인식부문형코드를 검색하는 단계와;
    상기 검색된 인식부문형코드와 대응하는 생성부 문형코드를 상기 생성부문형코드데이터베이스에서 찾아 생성문을 형성하는 단계와;
    상기 생성문을 처리하는 단계
    를 포함하는 자연어처리방법
KR10-2000-0030188A 2000-06-01 2000-06-01 코드화를 통한 자연어 처리장치 및 방법 KR100379735B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2000-0030188A KR100379735B1 (ko) 2000-06-01 2000-06-01 코드화를 통한 자연어 처리장치 및 방법
JP2000317158A JP2001344237A (ja) 2000-06-01 2000-10-17 コード化を通じた自然語処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0030188A KR100379735B1 (ko) 2000-06-01 2000-06-01 코드화를 통한 자연어 처리장치 및 방법

Publications (2)

Publication Number Publication Date
KR20010109047A KR20010109047A (ko) 2001-12-08
KR100379735B1 true KR100379735B1 (ko) 2003-04-11

Family

ID=19671042

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0030188A KR100379735B1 (ko) 2000-06-01 2000-06-01 코드화를 통한 자연어 처리장치 및 방법

Country Status (2)

Country Link
JP (1) JP2001344237A (ko)
KR (1) KR100379735B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020042248A (ko) * 2000-11-30 2002-06-05 한가람 문장으로부터의 감정 인식 및 표시 방법과 시스템
KR100480345B1 (ko) * 2002-03-27 2005-04-06 서호일 언어코드를 사용한 언어 학습/번역 서비스 시스템 및 그방법
KR101006491B1 (ko) * 2003-06-10 2011-01-10 윤재민 자연어 기반 감정인식, 감정표현 시스템 및 그 방법
JP2005128864A (ja) * 2003-10-24 2005-05-19 Ishisaki:Kk 人体カラーの数値的評価システムおよび評価評価方法
JP2005301817A (ja) 2004-04-14 2005-10-27 Ricoh Co Ltd 翻訳支援システム
KR100817744B1 (ko) * 2005-10-11 2008-03-31 한양대학교 산학협력단 창의적 컨텐츠 생성 방법 및 시스템
KR100850904B1 (ko) * 2006-04-28 2008-08-08 주식회사 올리브나인 대사 분류 프로그램을 이용한 무인대화시스템
KR100912501B1 (ko) 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
JP4913850B2 (ja) * 2009-07-30 2012-04-11 株式会社ピートゥピーエー 情報処理システム及び情報処理方法
KR101282419B1 (ko) * 2011-07-22 2013-07-04 진용옥 중간 내부 정음 치환코드를 이용한 다국어 검색 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
JPH02302874A (ja) * 1989-05-18 1990-12-14 Sanyo Electric Co Ltd 自然言語の解析変換方法
KR910003519A (ko) * 1989-07-15 1991-02-27 김기중 자연언어 처리 및 번역 방법과 그를 이용한 기계번역 시스템
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
KR19990070636A (ko) * 1998-02-23 1999-09-15 윤종용 자연어의 품사 태깅 장치 및 그 방법
KR20000008306A (ko) * 1998-07-11 2000-02-07 구자홍 시소러스 코드 압축 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
JPH02302874A (ja) * 1989-05-18 1990-12-14 Sanyo Electric Co Ltd 自然言語の解析変換方法
KR910003519A (ko) * 1989-07-15 1991-02-27 김기중 자연언어 처리 및 번역 방법과 그를 이용한 기계번역 시스템
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
KR19990070636A (ko) * 1998-02-23 1999-09-15 윤종용 자연어의 품사 태깅 장치 및 그 방법
KR20000008306A (ko) * 1998-07-11 2000-02-07 구자홍 시소러스 코드 압축 방법

Also Published As

Publication number Publication date
KR20010109047A (ko) 2001-12-08
JP2001344237A (ja) 2001-12-14

Similar Documents

Publication Publication Date Title
Black et al. Statistically-driven computer grammars of English: The IBM/Lancaster approach
Charniak Statistical language learning
US8271264B2 (en) Systems and methods for natural language communication with a computer
KR100379735B1 (ko) 코드화를 통한 자연어 처리장치 및 방법
Grif et al. Development of computer sign language translation technology for deaf people
Fan et al. Just speak it: Minimize cognitive load for eyes-free text editing with a smart voice assistant
Nguyen et al. Ensuring annotation consistency and accuracy for Vietnamese treebank
Fowler Routledge Revivals: Essays on Style and Language (1966): Linguistic and Critical Approaches to Literary Style
JPS6318458A (ja) 感情情報抽出装置
Moser Abstract thinking and thought in ancient Chinese and early Greek
Ahmed et al. Design and implementation of a chatbot for Kurdish language speakers using Chatfuel platform
Othman et al. An XML-gloss annotation system for sign language processing
JP2005506635A (ja) 言語又は方法により限定されないコンピュータ制御のコーダ・デコーダ
Engels et al. Information extraction: State-of-the-art report
KR950013128B1 (ko) 기계번역장치 및 방법
Stankevičius et al. Towards Lithuanian grammatical error correction
Ahmedova Stages of creating parallel corpus of english-uzbek similes
Slator Lexical semantics and preference semantics analysis
Aouiti et al. Translation system from Arabic text to Arabic sign language
Pereira et al. Is There Meaning in the Emoji Sequences Used on Social Media? The Architecture of a Model for Emoji Sequences Analysis
Szabó The Possibility of Universal Semiotics of Law
Freiwald What is theme and how to translate it
Suárez‐Gómez et al. World Englishes and grammatical variation
Seaquist Ritual Syntax
Monachesi et al. Merging FrameNet and PropBank in a corpus of written Dutch

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090330

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee