KR101589621B1 - 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법 - Google Patents

텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법 Download PDF

Info

Publication number
KR101589621B1
KR101589621B1 KR1020150024927A KR20150024927A KR101589621B1 KR 101589621 B1 KR101589621 B1 KR 101589621B1 KR 1020150024927 A KR1020150024927 A KR 1020150024927A KR 20150024927 A KR20150024927 A KR 20150024927A KR 101589621 B1 KR101589621 B1 KR 101589621B1
Authority
KR
South Korea
Prior art keywords
concept
semantic
constructing
response
sample data
Prior art date
Application number
KR1020150024927A
Other languages
English (en)
Inventor
장정훈
고준호
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020150024927A priority Critical patent/KR101589621B1/ko
Priority to JP2015086484A priority patent/JP6526470B2/ja
Application granted granted Critical
Publication of KR101589621B1 publication Critical patent/KR101589621B1/ko

Links

Images

Classifications

    • G06F17/2735
    • G06F17/2705
    • G06F17/2785

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법에 관한 것이다.
본 발명의 방법은, 질의자 단말의 입력 문장에 매칭될 어휘의미패턴이 속하는 집합인 컨셉을 미리 정의하는 단계와, 어휘의미패턴의 대상이 되는 문장인 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류하는 단계와, 컨셉의 의미를 구성하는 기본 단위인 의미자질(Semantic feature)을 정의하고, 동일 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축하는 단계와, 샘플 데이터에 대한 어휘의미패턴을 구축하는 단계와, 질의자 단말의 입력문장에 응답할 응답 데이터를 컨셉별로 미리 구축하는 단계를 포함한다.

Description

텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법{METHOD OF ESTABLISHING LEXICO SEMANTIC PATTERN KNOWLEDGE FOR TEXT ANALYSIS AND RESPONSE SYSTEM}
본 발명은 자연어 텍스트의 의미를 분석하고 그것에 응답하기 위한 시스템의 기반이 되는 LSP(Lexico Semantic Pattern: 어휘의미패턴) 지식을 구축하는 방법에 관한 것이며, 특히 음성 인식 시스템을 위한 LSP 지식 구축 방법에 관한 것이다.
기계에 의해서 사람의 음성을 인식하여 반응하는 기술은 실생활의 여러 분야에서 응용되고 있다. 대표적으로 애플의 시리(Siri)와 구글 나우(Now)처럼 기계(스마트폰)가 사람의 음성을 인식하여 응답을 하거나 다양한 제어명령을 실행하는 시스템들이 알려졌다. 이러한 시스템은 텍스트 마이닝 기술을 바탕으로 사용자의 입력 문장을 분석하여 의미를 파악하고, 그 의도에 맞게 응답을 생성, 출력하게 된다. 이는 단지 시리와 나우 뿐만 아니라 로봇 시스템이나 키워드 추출, 문장 요약 등과 같이 자연어 처리 시스템과 같이 인공지능 시스템의 다양한 분야에 적용되어 사용되고 있다.
질의 응답 시스템이 사용자 입력 텍스트를 분석하기 위해서는 형태소 및 구분 분석 등과 같이 자연어 분석 과정을 거치게 된다. 이러한 연구들은 오래전부터 진행되어 왔으며, 패턴 기반 분석과 통계 기반 분석으로 나뉘어서 발전했다. 이 중에서 패턴 기반 분석은 여러 문장에서 반복적으로 나타나는 단어나 혹은 형태소, 구문들을 LSP(어휘의미패턴) 형태의 패턴으로 만들고, 해당 LSP에 의미를 부여함으로써 문장을 분석한다. LSP 기술을 이용하여 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법에 관해서는 한국 특허 제1409298호가 있으며, 이 특허는 본 발명의 발명가들이 완성한 것이다.
패턴 기반 분석 방법으로서 LSP란 어휘, 형태소, 품사 등의 정보와 구문구조를 표현할 수 있는 문법규칙으로 자연어 처리 방법으로 잘 알려졌다. LSP 기술은 구문분석이 쉽게 이뤄지지 않는 자연어에 대해서 1차원적인 구문분석이 가능하도록 도와준다. 그런데 이러한 패턴 기반 분석 방법은 LSP라는 지식을 시스템 관리자가 입력 질의에 맞춰 사전에 정의해 놓아야 한다. 이것은 단순히 LSP 지식 구축만의 문제는 아니다. 입력 질의에 대한 텍스트 분석 과정이 끝나면 해당 정보를 이용하여 응답 생성 과정을 거치게 된다. 따라서 질의에 맞는 응답이 효율적으로 미리 구축되어 있지 않다면 응답 정보 제공에 실패하거나 잘못된 응답이 출력될 수 있다.
요컨대 텍스트 분석 및 응답 시스템을 이용하여 양질의 서비스를 제공하기 위해서는, 질의를 분석하기 위한 기본 지식인 LSP와 질의에 맞는 응답 데이터들을 사전에 잘 구축해 놓아야만 한다는 것이다. 이에 본 발명의 발명가들은 LSP 지식 구축을 어떻게 효율적으로 할 것인지를 오랫동안 연구한 끝에 본 발명을 완성하기에 이르렀다.
본 발명의 목적은 사용자의 질의에 효과적으로 응답하기 위해서 다단계의 LSP 지식 구축 방법을 제공하는 데 그 목적이 있다. 이를 통해서 효과적인 질의응답 시스템 서비스를 제공할 수 있는 환경을 구축하고자 한다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
이러한 과제를 해결하기 위하여 본 발명은, 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법으로서:
(a) 질의자 단말의 입력 문장에 매칭될 어휘의미패턴이 속하는 집합인 컨셉을 미리 정의하는 단계;
(b) 어휘의미패턴의 대상이 되는 문장인 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류하는 단계;
(c) 상기 컨셉의 의미를 구성하는 기본 단위인 의미자질(Semantic feature)을 정의하고, 동일 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축하는 단계;
(d) 상기 샘플 데이터에 대한 어휘의미패턴을 구축하는 단계; 및
(e) 질의자 단말의 입력문장에 응답할 응답 데이터를 상기 컨셉별로 미리 구축하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명의 바람직한 어느 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법에 있어서, 상기 (a) 단계의 컨셉은 계층구조를 가지는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법에 있어서, 상기 (b) 단계에서 샘플 데이터에 대응하는 컨셉이 정의되어 있지 않은 경우, 컨셉을 추가하거나 수정하는 단계를 더 포함할 수 있다.
또한, 본 발명의 바람직한 어느 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법에 있어서, 상기 (d) 단계의 어휘의미패턴은 상기 샘플 데이터를 인식하기 위한 문법 표현과 상기 (c) 단계의 의미자질을 사용할 수 있다.
또한, 본 발명의 바람직한 어느 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법에 있어서, 상기 (e) 단계의 상기 응답 데이터는 상기 질의자 단말의 입력문장에 따라 바뀌어야 할 부분을 변수로 지정하는 것이 좋다.
이와 같은 본 발명에 따르면 질의응답 시스템의 LSP 지식을 효과적으로 구축할 수 있다는 장점이 있다. 또한 지식의 관리와 유지보수를 효율적으로 진행할 수 있음은 물론이다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 LSP(어휘의미패턴)에 기반한 질의응답시스템을 사용하는 어느 시나리오에서의 시스템 구성 예를 나타낸다.
도 2는 바람직한 실시예에 따른 본 발명의 전체 프로세스를 개략적으로 나타내는 도면이다.
도 3은 본 발명에 따라 캡션을 구축함에 있어 관리자 단말의 화면 구성 예를 나타내는 도면이다.
도 4는 본 발명의 방법에 따라 의미자질을 정의한 의미자질 사전 테이블(200)의 일 예를 나타내는 도면이다.
도 5는 도 4의 500번 의미자질 “meeting”에 대한 엔트리 테이블(201)의 구성 예를 나타낸다.
도 6은 본 발명의 방법에 따라 생성된 LSP 구축 테이블(300)의 구성 예를 나타낸다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 LSP(어휘의미패턴)에 기반한 질의응답시스템의 사용 용례 중 어느 하나의 시나리오를 나타낸다. 특히 도시된 예는 주로 질의자의 입력 문장이 음성으로 이루어진 경우이지만, 질의자의 입력 문장이 음성이 아닌 텍스트로 입력된 경우에도 본 발명의 LSP 지식 구축 방법을 사용할 수도 있다.
질의자가 사용자 디바이스(10)에 근접하여 입력 문장을 입력하면 사용자 디바이스(10)에 내장되어 있는 음성 인식기(11)를 거쳐서 텍스트 형태로 응답을 요청할 수 있다. 사용자 디바이스(10)의 질의응답시스템(12)은 미리 구축되어 있는 LSP 지식 정보를 이용하여 입력 문장을 분석하며, 질의에 맞는 응답 데이터를 응답 출력기(13)를 통해 질의자에게 제시할 수 있다.
질의응답시스템(12)의 구동에 필요한 데이터와 프로그램 코드는 저장장치에 구축된다. 본 발명의 바람직한 어느 실시예에서는 도 1처럼 사용자 디바이스(10)의 메모리에 구축될 수 있다. 또한, 본 발명의 더욱 바람직한 다른 실시예에서는 상기 질의응답시스템(12)이 구축되어 있는 저장장치는 사용자 디바이스(10)의 외부에 위치할 수 있으며, 이 경우 사용자 디바이스(10)는 네트워크 통신을 통해서 외부 저장장치에 상주하는 질의응답시스템(12)을 이용하여 질의자에게 응답 데이터를 출력한다.
본 발명의 방법은 상기 질의응답시스템(12)을 구성하는 LSP 지식을 사전에 단계적으로 구축하는 방법에 관한 것이며, 이는 관리자 단말(20)에 의해서 실시될 수 있다. 이하에서 설명하는 LSP 지식은 질의자의 입력 문장을 분석하고 응답 데이터를 추출하기 위하여 사용하는 데이터베이스들과 이들 데이터베이스에 저장되어 있는 데이터를 사용하기 위한 소프트웨어 모듈이 포함된다. 한편, 본 발명에 의해서 사전에 구축된 LSP 지식을 실제로 사용함에 있어서, 도 1 혹은 도 1의 다양한 변형예에서의 하드웨어 및/소프트웨어의 기능과 작용관계는 공지기술이거나 혹은 공지기술의 변용이나 여러 개선들이 포함될 수 있다.
도 2는 본 발명의 바람직한 일 실시예에 따른 LSP 지식 구축 방법의 전체 프로세스를 예시한다. 이것은 텍스트 분석 및 응답 시스템을 위한 LSP의 사전 구축 방법의 프로세스이기도 하다. 이들 각 단계들은 하드웨어/소프트웨어 모듈이 구축되어 있는 컴퓨팅 시스템인 관리자 단말에 의해서 수행될 수 있다.
먼저, 컨셉(Concepts)을 구축한다(S10). 컨셉은 어휘의미패턴들이 속하는 집합의 역할을 하며, 입력되는 문장에 대해 어떤 응답을 취할지 정하는 단위가 된다. 즉, 사용자에게 출력될 응답 문장은 질의자 단말의 입력 문장에 매칭될 임의의 LSP가 속한 컨셉에 등록된 응답 문장이 될 수 있다.
또한 바람직하게는 S10 단계에서 정의되어 구축되는 컨셉은 계층구조를 가질 수 있다. 도 3은 컨셉 생성화면(100)을 나타내며, 복수의 컨셉들이 계층구조를 형성함을 보여준다. 예컨대 큰 범주의 common 컨셉을 정의하면서 그 하위 범주로, period, time, place, attendee, filtering 컨셉을 정의하고, filtering 컨셉에는 다시 period, time, place, attendee 정의하여 등록할 수 있다. 이처럼 컨셉을 구축함에 있어 큰 범주의 의미표현에서부터 세부 의미까지 계층을 이루며 문장의 의미를 분류하여 정의할 수 있다. 각 컨셉에는 LSP를 가지거나 혹은 가지지 않을 수도 있다. 그러나 본 발명에 있어서 이하에서 생성될 LSP는 반드시 컨셉에 속하도록 된다.
이처럼 다수의 LSP들을 컨셉에 속하도록 사전에 구조화함으로써, LSP들은 컨셉 집합이 될 수 있다. 그러므로 비슷한 내용의 텍스트를 분석할 수 있는 LSP들을 하나의 컨셉으로 묶어놓음으로써 관리를 보다 효과적으로 할 수 있다.
각 컨셉에 속하는 LSP들을 구축하기 위해서는 대상이 되는 텍스트인 샘플 데이터 확보가 필요하다. 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류한다(S20). 샘플 데이터를 많이 수집할수록 더욱 정교한 컨셉과 LSP 구축이 가능해진다. 이는 질의응답시스템의 성능에 직접적인 영향을 미친다. 수집한 샘플 데이터는 구축한 컨셉에 맞게 각각 분류하게 되는데, 만일 수집한 샘플 데이터 중에서 특정 컨셉으로 분류하기 어려운 데이터 경우, 즉 수집한 샘플 데이터에 대응하는 컨셉이 없는 경우에는 컨셉을 추가하거나 수정할 수 있다.
설명의 편의를 위해서 다음 문장과 같은 샘플 데이터를 예시한다:
(A) “팀 회식하기 좋은 점심 먹을 식당을 알려줘”
(B) “과제 워크숍을 하려고 하는데 어디가 좋을까”
(C) “과제 회의 일정을 잡아야 하는데...”
질의응답시스템이 효과적으로 실행되기 위해서 단어는 다르지만 동일한 의미를 가지는 어휘를 구조화할 필요가 있다. 이를 위해서, 상기 컨셉의 의미를 구성하는 기본 단위인 의미자질(Semantic feature)을 정의하여 의미자질 사전을 구축한다(S30).
의미자질은 LSP를 구성하는 기본 단위 중 하나이며, 의미자질 사전은 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어놓은 것을 말한다.
상기 샘플 데이터의 문장에 관해서 말하자면, (A) 문장의 경우에는, “요청”, “음식점”, “목적”과 같은 의미자질들로 구성되어 있다. 각각의 의미자질은 예컨대 “요청(알려줘)”, “음식점(식당)”, “목적(회식, 점심)” 등의 엔트리를 포함할 수 있다. (B)문장의 경우, “미팅”, “목적”, “where” 와 같은 의미자질로, (C) 문장은, “목적”, “바램”과 같은 의미자질로 구성되어 있다. 위 문장들을 포괄하는 컨셉은 “reservation”으로 볼 수 있을 것이다. 결국 몇 개의 샘플 문장으로부터 이 컨셉은 “요청”, “음식점”, “미팅”, “목적”, “where”, “바램”과 같은 의미자질로 구성될 수 있다.
도 3에서 “reservation” 밑에 meal 컨셉은 “음식점 예약”이라는 컨셉이며, 이 컨셉은 “음식점”, “요청”, “바램”, “where” 등의 의미자질로 구성될 수 있으며, “reservation” 밑의 meeting 컨셉은 “음식점” 의미자질 대신에 “미팅” 의미자질이 추가 구성될 수도 있다.
도 4 를 이용해서 다시 설명해 보자. 도 4는 의미자질을 정의한 의미자질 사전 테이블(200)의 일 예를 나타낸다. 이 의미자질 사전 테이블(200) 중 500번 의미자질(201) “meeting”을 예로 설명해보자.
“회의”, “과제+회의”, “모임”, “미팅”, “과제+미팅”, “토의”, “논의”는 동일한 의미를 갖는다. 따라서 이들 단어를 “meeting_n”이라는 의미자질(201)의 엔트리로 묶을 수 있으며, 도 5의 엔트리 테이블(210)처럼, 하나의 엔트리로 분류하고, 이 엔트리가 “meeting_n”이라는 의미자질(201)의 하위 분류의 집합이 되도록 구조화할 수 있다.
이러한 의미자질은 사전과 같은 역할을 하며, 이처럼 정의된 의미자질에 동일한 의미를 가지는 어휘 엔트리를 추가하기 때문에, 의미자질은 엔트리의 집합이 될 수 있다. 도메인 내에 키워드로 이루어진 의미자질과 서술 표현의 의미자질이 포함될 수 있다.
어휘의미패턴에서는 기호 “@”을 사용하여 의미자질을 “@meeting_n”로 표현한다. 의미자질 사전 구축이 끝나면 이를 활용하여 앞서 수집하고 분류한 샘플 데이터에 대한 어휘의미패턴(LSP)을 구축한다(S40).
LSP를 구축할 때는 의미자질뿐만 아니라 다양한 문법표현에 기반한 어절, 형태소, 음절, 사전, 변수 등의 표현과, 여러 연산자들을 사용할 수 있다. 전술한 것처럼 본 발명에 있어서 LSP들은 임의의 컨셉에 속해야 한다.
상기 S30 단계를 먼저 실행해 둠으로써, 하나의 대표 문형을 표현하는 LSP는 그 LSP를 구성하는 의미자질 엔트리의 조합만큼의 문장들을 인식할 수 있다.
도 6은 본 발명의 LSP 구축 테이블(300)의 일 예를 나타낸다. 이 LSP 구축 테이블(300)은 상기 S20 단계의 샘플 데이터 예문 (A), (B), (C)에 관련한 대표문형들의 LSP의 일부이다. LSP의 기본 구성은 어휘, 품사, 형태소를 포함하며, 도 6에서 사용된 기호(연산자와 품사)에 대해서는 아래의 표 1이 그 의미를 설명한다.
연산자 의미
| OR
= 값의 범주를 지정하는 연산자
/ 품사 표현
+ 좌/우변에 대한 형태소 결합을 표현
? 모든 표현에 대해 적용 혹은 미적용을 의미
모든 표현을 한 번 대치하거나 공집합을 의미
! 표현이나 단어의 본래 의미를 부정하는 표현
* 표현식을 반복
품사 N_: 체언(명사류를 포함)
J_: 조사
V_: 용언(동사, 형용사)
E_: 어미
MA: 부사
질의자의 입력문장은 질의응답시스템에 의해서 분석될 것이며, 분석결과 매칭되는 LSP 구문이 검색되면, 이제 질의응답시스템은 그것에 대응하는 응답 데이터를 질의자에게 출력해야 한다. 이를 위해서 응답 데이터를 미리 구축한다(S50).
바람직하게는 각 컨셉 별로 미리 응답 문장을 구축해 놓는다. 질의자의 입력 문장이 LSP에 매칭되었다는 것은 그 문장이 해당하는 컨셉이 특정된다는 뜻이다. 왜냐하면 S20 단계에 사전 실행에 의해서 S40 단계에서 구축된 LSP 구문이 각 컨셉 별로 분류되기 때문이다. 따라서 상기 S50 단계에서 미리 구축되는 응답 데이터도 컨셉 별로 분류하여 등록하는 것이 좋다. 이때 입력 문장에 따라 바뀌어야 하는 부분은 변수로 지정해 놓는 것이 바람직하다. 상기 S20 단계에서 제시한 샘플 데이터의 예문에 대응하는 응답 데이터는 다음과 같이 미리 등록될 수 있다.
(a) “근처 @distance 내에 @restaurant가 있네요”
(b) “워크숍 장소는 @destination 만한 곳이 없죠”
(c) “@project 일정은 @when(으)로 되어 있습니다”
이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다. 예컨대 상기 S20 단계의 샘플 데이터 수집은 상기 S10 단계를 실행하기 전에 이루어질 수도 있으며, 또한 S30 단계 이후에 실행될 수도 있다. 또한, 상기 S20 단계는 S40 단계 앞에 오는 것이 자연스럽기는 하지만 샘플 데이터를 필요에 따라 추가하는 경우를 생각할 수도 있다.
참고로, 본 발명의 바람직한 여러 가지 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (5)

  1. 질의응답시스템의 관리자 단말에 의해 수행되는 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법으로서:
    (a) 질의자 단말의 입력 문장에 매칭될 어휘의미패턴이 속하는 집합인 컨셉을 미리 정의하는 단계;
    (b) 어휘의미패턴의 대상이 되는 문장인 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류하는 단계;
    (c) 상기 컨셉의 의미를 구성하는 기본 단위인 의미자질(Semantic feature)을 정의하고, 동일 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축하는 단계;
    (d) 상기 샘플 데이터에 대한 어휘의미패턴을 구축하는 단계; 및
    (e) 질의자 단말의 입력문장에 응답할 응답 데이터를 상기 컨셉별로 미리 구축하는 단계를 포함하며,
    상기 (b) 단계에서 샘플 데이터에 대응하는 컨셉이 정의되어 있지 않는 경우, 컨셉을 추가하거나 수정하는 단계를 더 포함하는, 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법.
  2. 제1항에 있어서,
    상기 (a) 단계의 컨셉은 계층구조를 가지는 것인, 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 (d) 단계의 어휘의미패턴은 상기 샘플 데이터를 인식하기 위한 문법 표현과 상기 (c) 단계의 의미자질을 사용하는 것인, 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법.
  5. 제1항에 있어서,
    상기 (e) 단계의 상기 응답 데이터는 상기 질의자 단말의 입력문장에 따라 바뀌어야 할 부분을 변수로 지정하는 것인, 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법.
KR1020150024927A 2015-02-23 2015-02-23 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법 KR101589621B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150024927A KR101589621B1 (ko) 2015-02-23 2015-02-23 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법
JP2015086484A JP6526470B2 (ja) 2015-02-23 2015-04-21 テキスト分析及び応答システムのための語彙意味パターンの事前構築方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150024927A KR101589621B1 (ko) 2015-02-23 2015-02-23 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법

Publications (1)

Publication Number Publication Date
KR101589621B1 true KR101589621B1 (ko) 2016-01-28

Family

ID=55309969

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150024927A KR101589621B1 (ko) 2015-02-23 2015-02-23 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법

Country Status (2)

Country Link
JP (1) JP6526470B2 (ko)
KR (1) KR101589621B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101506A1 (ko) * 2016-11-30 2018-06-07 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
KR20190140534A (ko) 2018-05-31 2019-12-20 가천대학교 산학협력단 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법
KR20190140533A (ko) 2018-05-31 2019-12-20 가천대학교 산학협력단 컨셉넷을 이용한 한국어 관계 분석 시스템 및 방법
KR20210089962A (ko) * 2020-01-09 2021-07-19 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
KR20220062992A (ko) * 2020-11-09 2022-05-17 (주)미소정보기술 도메인 특화된 언어 규칙 생성이 가능한 텍스트 데이터 분석 방법 및 장치
KR20220087704A (ko) * 2020-12-18 2022-06-27 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
WO2023013826A1 (ko) * 2021-08-02 2023-02-09 주식회사 닥터송 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법
KR100989581B1 (ko) * 2010-04-28 2010-10-25 한국과학기술정보연구원 개체명 사전 및 마이닝 규칙이 결합된 온톨로지 스키마를 이용한 리소스 기술 프레임워크 네트워크 구축 장치 및 방법
KR20140019094A (ko) * 2012-08-02 2014-02-14 주식회사 와이즈넛 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063345A (ko) * 2004-12-07 2006-06-12 한국전자통신연구원 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법
KR100989581B1 (ko) * 2010-04-28 2010-10-25 한국과학기술정보연구원 개체명 사전 및 마이닝 규칙이 결합된 온톨로지 스키마를 이용한 리소스 기술 프레임워크 네트워크 구축 장치 및 방법
KR20140019094A (ko) * 2012-08-02 2014-02-14 주식회사 와이즈넛 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국HCI학회, ‘어휘 의미 패턴과 온톨로지를 이용한 정보검색기의 설계 및 구현’, 김병우 외1인, 2007.2. *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101506A1 (ko) * 2016-11-30 2018-06-07 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
KR20190140534A (ko) 2018-05-31 2019-12-20 가천대학교 산학협력단 컨셉넷을 이용한 소정 언어의 관계 분석 시스템 및 방법
KR20190140533A (ko) 2018-05-31 2019-12-20 가천대학교 산학협력단 컨셉넷을 이용한 한국어 관계 분석 시스템 및 방법
KR20210089962A (ko) * 2020-01-09 2021-07-19 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
KR102505821B1 (ko) * 2020-01-09 2023-03-06 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
KR20220062992A (ko) * 2020-11-09 2022-05-17 (주)미소정보기술 도메인 특화된 언어 규칙 생성이 가능한 텍스트 데이터 분석 방법 및 장치
KR102452378B1 (ko) 2020-11-09 2022-10-07 (주)미소정보기술 도메인 특화된 언어 규칙 생성이 가능한 텍스트 데이터 분석 방법 및 장치
KR20220087704A (ko) * 2020-12-18 2022-06-27 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
KR102445748B1 (ko) 2020-12-18 2022-09-21 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
WO2023013826A1 (ko) * 2021-08-02 2023-02-09 주식회사 닥터송 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Also Published As

Publication number Publication date
JP6526470B2 (ja) 2019-06-05
JP2016157407A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
KR101589621B1 (ko) 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법
US11334692B2 (en) Extracting a knowledge graph from program source code
US11741309B2 (en) Templated rule-based data augmentation for intent extraction
KR20220027198A (ko) 자연어 이해(nlu) 프레임워크에서 검색 키들 및 검색 공간들의 확장을 위한 아티팩트들의 피닝
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US9122540B2 (en) Transformation of computer programs and eliminating errors
KR102445519B1 (ko) 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법
CN102662935A (zh) 一种交互式的机器翻译方法和机器翻译系统
CN1726488A (zh) 用于构建自然语言理解应用的集成开发工具
EP2950306A1 (en) A method and system for building a language model
KR101948257B1 (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
US20180300411A1 (en) Modification of search subject in predictive search sentences
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
CN106547765B (zh) 基于sql的数据库管理方法及装置
CN112597307A (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
Hayes-Roth et al. An Automatically Compilable Recognition Network For Structured Patterns.
US9208134B2 (en) Methods and systems for tokenizing multilingual textual documents
KR101409298B1 (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
KR101589626B1 (ko) 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
KR102080931B1 (ko) 음성 대화 제어 방법 및 장치
KR20170088467A (ko) 의미역 결정 기술을 활용한 온톨로지 기반 지식베이스 구축 방법
US11709989B1 (en) Method and system for generating conversation summary
WO2015094150A1 (en) Tagging a program code portion
JP2015064671A (ja) 文正規化システム、文正規化方法及び文正規化プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190115

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200122

Year of fee payment: 5