KR101916174B1 - 기계 학습 기반으로 언어를 처리하는 방법 및 장치 - Google Patents

기계 학습 기반으로 언어를 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR101916174B1
KR101916174B1 KR1020160105981A KR20160105981A KR101916174B1 KR 101916174 B1 KR101916174 B1 KR 101916174B1 KR 1020160105981 A KR1020160105981 A KR 1020160105981A KR 20160105981 A KR20160105981 A KR 20160105981A KR 101916174 B1 KR101916174 B1 KR 101916174B1
Authority
KR
South Korea
Prior art keywords
language
data
user
processing machine
source data
Prior art date
Application number
KR1020160105981A
Other languages
English (en)
Other versions
KR20180021444A (ko
Inventor
최준영
Original Assignee
최준영
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최준영 filed Critical 최준영
Priority to KR1020160105981A priority Critical patent/KR101916174B1/ko
Publication of KR20180021444A publication Critical patent/KR20180021444A/ko
Application granted granted Critical
Publication of KR101916174B1 publication Critical patent/KR101916174B1/ko

Links

Images

Classifications

    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기계 학습 기반으로 언어를 처리하는 방법 및 장치가 개시된다. 기계 학습 기반으로 언어를 처리하는 방법은 언어 처리 머신이 1차 원천 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 1차 원천 데이터를 이식 받는 단계, 언어 처리 머신이 사용자에 의해 발화된 언어 패턴에 대한 정보와 관련된 1차 원천 데이터를 탐색하는 단계와 언어 처리 머신이 1차 원천 데이터를 기반으로 사용자와 질의 응답 절차를 수행하는 단계를 포함할 수 있되, 1차 원천 데이터는 사용자의 언어 패턴과 관련되어 기존에 원천 텍스트를 기반으로 생성된 일상적 대화 정보 또는 전문 지식 정보에 관해서 질의 응답 구조로 자연어 처리된 텍스트 데이터 또는 1차 원천 데이터를 기반으로 다른 사용자와 다른 언어 처리 머신 간의 데이터가 더 보강된 1차 원천 데이터에 대한 기록일 수 있다. 또한, 서버에서 자연어 처리된 질의 응답 체계 데이터는 모델링 될 수 있으며, 특정 분야의 모델링 데이터와 또 다른 분야의 모델링 데이터를 결합하여 언어관을 생성하도록 구현될 수 있다.

Description

기계 학습 기반으로 언어를 처리하는 방법 및 장치{Method and apparatus for processing language based on machine learning}
본 발명은 기계 학습 방법 및 장치에 관한 것으로서, 보다 상세하게는 기계 학습 기반으로 언어를 처리하는 방법 및 장치에 관한 것이다.
몇 년 전까지만 해도 인공지능 및 기계 학습은 전문가들이 사용하는 용어였다. 그러나, 이제는 누구나 한 번쯤은 들어봤을 정도로 친숙한 용어가 되었다. 인공 지능은 사람의 지능을 컴퓨터로 구현하기 위한 기술이다. 컴퓨터로 구현된 지능이 큰 의미를 갖는 이유는 지금까지 기계가 할 수 없던 여러 가지 작업들을 자동화 할 수 있는 가능성을 열고 있기 때문이다. 18세기 증기기관을 비롯해 다양한 기계들이 발명되면서 사람이나 짐승이 하던 많은 일들이 자동화 되었다. 그 결과, 생산이 비약적으로 증가하였으며, 사람들의 생활과 산업, 더 나아가 인류 문명에 막대한 영향을 끼쳤다. 지금까지 자동화의 대상은 정해진 틀에 따라 수행할 수 있는 단순한 작업들로 국한되었다. 수행 과정을 미리 정의할 수 없는 복잡한 작업이나, 변화하는 환경에서의 적응이 필요한 작업 등은 지능을 요구하기 때문에 지금까지의 기술로는 자동화가 어려웠다. 그런데, 인공지능이 일정 수준 이상 성숙할 경우 복잡도가 비교적 낮은 작업들은 자동화가 가능해질 것이며, 그 후, 기술이 발전할수록 자동화 가능한 작업들은 급속도로 증가할 것이다. 노동 활동의 자동화가 산업혁명으로 이어졌던 사실에 비추어 볼 때 지적 활동의 자동화가 이루어진다면 그 영향이 매우 크고 광범위할 것이다.
IBM의 인공지능 ‘왓슨(Watson)’이 제퍼디(Jeopardy) 퀴즈쇼에서 사람과 경쟁해 우승한 것과 구글이 딥러닝(deep learning) 알고리즘을 이용해 대량의 영상으로부터 고양이의 얼굴을 스스로 학습해 낸 사례 등은 일반인들에게도 이미 널리 알려졌다. 또한, 인공지능을 소재로 한 다수의 영화들이 상영되어 사람들의 관심을 끌기도 했다. 세계적으로 인공지능이 주목 받는 이유는 인공지능 기술이 단순한 화제 거리에 그치지 않고 여러 분야에서 상당한 성과를 보이며 사람들의 일상 생활과 산업에 변화를 일으키고 있을 뿐 아니라 앞으로 그 영향력이 더욱 커질 것으로 예상되기 때문이다.
KR 10-2009-0023605
본 발명의 일 측면은 기계 학습 기반으로 언어를 처리하는 방법을 제공한다.
본 발명의 다른 측면은 기계 학습 기반으로 언어를 처리하는 장치를 제공한다.
본 발명의 일 측면에 따른 기계 학습 기반으로 언어를 처리하는 방법은 언어 처리 머신이 1차 원천 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 상기 1차 원천 데이터를 이식 받는 단계, 상기 언어 처리 머신이 사용자에 의해 발화된 언어 패턴에 대한 정보와 관련된 상기 1차 원천 데이터를 탐색하는 단계와 상기 언어 처리 머신이 상기 1차 원천 데이터를 기반으로 상기 사용자와 질의 응답 절차를 수행하는 단계를 포함할 수 있되, 상기 1차 원천 데이터는 상기 언어 패턴과 관련되어 기존에 원천 텍스트를 기반으로 생성된 일상적 대화 정보 또는 전문 지식 정보에 관한 질의 응답 구조의 자연어 처리된 텍스트 데이터 또는, 상기 1차 원천 데이터를 기반으로 다른 사용자와 다른 언어 처리 머신 간의 데이터가 더 보강된 1차 원천 데이터에 대한 기록일 수 있다.
한편, 기계 학습 기반으로 언어를 처리하는 방법은 상기 언어 처리 머신이 상기 질의 응답 기록을 서버로 전송하는 단계와 상기 언어 처리 머신이 상기 사용자의 사용자 계정을 기반으로 학습된 상기 사용자의 특성 정보를 바탕으로 상기 사용자와의 질의 응답을 수행하는 단계를 포함할 수 있다.
또한, 기계 학습을 기반으로 언어를 처리하는 방법은 상기 언어 처리 머신이 앱 등을 통해 획득된 상기 일상적 대화 정보의 원천 텍스트를 질의 응답 구조의 자연어 처리한 상기 1차 원천 데이터 또는 그에 연동된 상기 원천텍스트를 서버로부터 수신하는 단계, 상기 언어 처리 머신이 상기 1차 원천 데이터 또는 그에 연동된 상기 원천텍스트를 기반으로 상기 사용자의 질의에 대한 응답을 수행하는 단계, 상기 언어 처리 머신이 상기 획득된 질의 응답을 상기 서버로 전달하여 상기 원천 텍스트를 보강한 후, 상기 서버에서 상기 1차 원천 데이터를 자연어 처리하는 단계를 포함 할 수 있다.
또한, 상기 1차 원천 데이터 또는 그에 연동된 상기 원천텍스트는 집단지성을 기반 으로 생성된 질의 응답 및 최신의 일상적 대화 정보를 보강 하여 업데이트 되고, 상기 서버에서 상기 일상적 대화 정보와 관련된 상기 질의 및 복수의 다른 질의 각각과 상기 집단 지성을 기반으로 상기 질의 및 상기 복수의 다른 질의 각각에 대한 응답을 기반으로 상기 일상적 대화 정보에 대한 자연어 처리된 질의 응답 체계 데이터를 모델링 하도록 구현될 수 있다.
한편, 기계 학습 기반으로 언어를 처리하는 방법은 상기 언어 처리 머신이 앱 등을 통해 획득된 상기 전문 지식 정보의 원천텍스트를 질의 응답 구조의 자연어 처리한 상기 1차 원천 데이터를 서버로부터 수신하는 단계, 상기 언어 처리 머신이 상기 1차 원천 데이터를 기반으로 사용자의 질의에 대응해 1차 응답을 수행하는 단계, 상기 언어 처리 머신이 해결 되지 못한 질의를 집단 지성에 전달 하여 상기 집단 지성으로부터 상기 2차 응답을 수신하여 상기 질의에 대한 응답으로 상기 사용자에게 제공하는 단계를 포함하도록 구현될 수 있다.
또한, 상기 2차 응답은 상기 집단 지성을 통해 상기 질문에 대한 공유를 기반으로 다른 사용자에 의해 생성되어 업데이트되고, 상기 서버에서 상기 전문 정보와 관련된 상기 질의 및 복수의 다른 질의들 각각과 상기 집단 지성을 기반으로 상기 질의 및 상기 복수의 다른 질의 각각에 대한 응답을 기반으로 상기 전문 정보에 대한 자연어 처리된 질의 응답 체계 데이터를 모델링 하도록 구현될 수 있다.
또한 상기 서버에서 특정 분야의 모델링 데이터와 또 다른 분야의 모델링 데이터를 결합하여 언어관을 생성하도록 구현될 수 있다.
또한, 상기 모델링 및 언어관의 질의 응답 체계 데이터는 앱 마켓을 통해 상기 서버로부터 상기 언어 처리 머신으로 이식될 수 있다.
본 발명의 또 다른 측면에 따른 기계 학습 기반으로 언어를 처리하는 언어 처리 머신은 프로세서를 포함하고, 상기 프로세서는 상기 언어 처리 머신이 1차 원천 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 1차 원천 데이터를 이식 받는 단계, 상기 언어 처리 머신이 상기 사용자에 의해 발화된 언어 패턴에 대한 정보와 관련된 상기 1차 원천 데이터를 탐색하는 단계와 상기 언어 처리 머신이 상기 1차 원천 데이터를 기반으로 상기 사용자와 질의 응답 절차를 수행하는 단계를 포함할 수 있되, 상기 1차 원천 데이터는 상기 언어 패턴과 관련되어 기존에 원천 텍스트를 기반으로 생성된 일상적 대화 정보 또는 전문 지식 정보에 관한 질의 응답 구조의 자연어 처리된 텍스트 데이터 또는, 상기 1차 원천 데이터를 기반으로 다른 사용자와 다른 언어 처리 머신 간의 데이터가 더 보강된 1차 원천 데이터에 대한 기록일 수 있다.
한편, 상기 프로세서가 상기 질의 응답 기록을 서버로 전송하고, 상기 사용자의 사용자 계정 기반으로 학습된 상기 사용자의 특성 정보를 바탕으로 상기 사용자와의 질의 응답을 수행하도록 구현될 수 있다.
또한, 기계 학습 기반으로 언어를 처리하는 언어 처리 머신은, 프로세서를 포함하되, 상기 언어 처리 머신이 일상적 대화 정보의 원천텍스트를 질의 응답 구조의 자연어 처리한 1차 원천 데이터 또는 그에 연동된 상기 원천텍스트를 서버로부터 수신하는 단계, 상기 언어 처리 머신이 상기 1차 원천 데이터 또는 그에 연동된 상기 원천텍스트를 기반으로 상기 사용자의 질의에 대한 응답을 수행하는 단계, 상기 언어 처리 머신이 상기 획득된 질의 응답을 상기 서버로 전달하여 상기 원천 텍스트를 보강한 후, 상기 서버에서 상기 1차 원천 데이터를 자연어 처리하는 단계를 포함 할 수 있다.
또한, 상기 1차 원천 데이터 또는 그에 연동된 상기 원천 텍스트는 집단지성을 기반으로 생성된 질의 응답 및 최신의 일상적 대화 정보를 보강 하여 업데이트 되고, 상기 서버에서 상기 일상적 대화 정보와 관련된 상기 질의 및 복수의 다른 질의 각각과 상기 집단 지성을 기반으로 상기 질의 및 상기 복수의 다른 질의 각각에 대한 응답을 기반으로 상기 일상적 대화 정보에 대한 자연어 처리된 질의 응답 체계 데이터를 모델링 하도록 구현될 수 있다.
한편, 상기 프로세서는 언어 처리 머신이 상기 전문 지식 정보에 관한 원천 텍스트를 질의 응답 구조의 자연어 처리한 1차 원천 데이터를 서버로부터 수신하는 단계, 상기 언어 처리 머신이 상기 1차 원천 데이터를 기반으로 사용자의 질의에 대해 1차 응답을 수행하는 단계, 상기 언어 처리 머신이 해결되지 못한 질의를 집단 지성에 전달 하여 상기 집단 지성으로부터 상기 2차 응답을 수신하여 상기 질의에 대한 응답으로 상기 사용자에게 제공하는 단계를 포함하도록 구현될 수 있다.
또한, 상기 2차 응답은 상기 집단 지성을 통해 상기 질문에 대한 공유를 기반으로 다른 사용자에 의해 생성되어 업데이트되고, 상기 서버에서 상기 전문 정보와 관련된 상기 질의 및 복수의 다른 질의들 각각과 상기 집단 지성을 기반으로 상기 질의 및 상기 복수의 다른 질의 각각에 대한 응답을 기반으로 상기 전문 정보에 대한 자연어 처리된 질의 응답 체계 데이터를 모델링 하도록 구현될 수 있다.
또한 상기 서버에서 상기 특정 분야의 모델링 데이터와 다른 분야의 모델링 데이터를 결합하여 언어관을 생성하도록 구현될 수 있다.
또한, 상기 모델링 및 언어관의 질의 응답 체계 데이터는 앱 마켓을 통해 상기 서버로부터 상기 언어 처리 머신으로 이식될 수 있다.
본 발명의 실시예에 따른 기계 학습 기반으로 언어를 처리하는 방법 및 장치에 따르면, 언어 처리 머신은 자연어의 기계적 처리과정 및 집단 지성을 이용하여 사용자와 일상적 대화에 대해 보다 자연스러운 질의 응답을 나눌 수 있다. 또한, 언어 처리 머신은 자연어의 기계적 처리과정 및 집단 지성을 이용하여 전문지식에 관한 사용자의 질의에 대해 보다 정확한 응답 정보를 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 언어관 획득 프로세스를 수행하는 시스템을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 일상적 대화 목적의 모델링데이터 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 전문지식 목적의 모델링데이터 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 두 가지 이상의 모델링 데이터를 하나로 모델링 하여 단일의 언어관 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 일상적 대화 목적의 모델링 데이터 획득 프로세스를 나타낸 순서도이다.
도 6는 본 발명의 실시예에 따른 전문지식 목적의 모델링 데이터의 획득 프로세스를 나타낸 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조 부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
본 발명의 실시예에서는 언어 처리 머신(machine)(예를 들어, 로봇)의 언어관을 형성하기 위한 모델링 데이터를 확보하는 방법 및 확보된 모델링 데이터를 조합해 다양한 언어관을 획득 하는 일련의 절차가 개시된다. 이하, 본 발명의 실시예에서 언어 처리 머신 이라는 용어는 언어 처리를 수행하는 로봇, 장치 등을 의미할 수 있다.
언어관 획득의 주요 프로세스로 인공지능 및 기계학습 등을 기반으로 한 자연어 처리(natural language processing)와 질의응답체계구축 등이 사용될 수 있다. 질의응답체계구축은 인지 컴퓨팅(perceptual computing), 딥러닝(deep learning), HMM(hidden markov model), 퍼지이론(fuzzy theory)등을 기반으로 수행될 수 있고 이러한 기계 상의 자연어 처리 및 질의응답체계 구축을 기반으로 인간의 집단 지성이 결합될 수 있다.
원천 데이터는 텍스트 데이터가 포함 될 수 있는데 텍스트 데이터가 언어관 획득에 주요 수단으로 사용되는 이유는 텍스트 정보는 기타의 데이터에 비해 낮은 비용으로 획득 가능하고 저장 및 가공할 수 있는 데이터이고 인간의 언어와 내면 체계를 효율적으로 표현할 수 있는 데이터의 한 형태이기 때문이다. 이러한 텍스트 정보를 확보함에 있어서 특별히 이러한 텍스트 정보를 거래할 수 있는 특정한 마켓을 통한 획득도 가능하다.
마켓은 앱 등을 통해서 구현될 수 있으며 기존의 도서와 사전 등 텍스트로 되어있으며 가치를 부여할 수 있는 자료라면 어떤 것이던 거래될 수 있다. 예를 들어, 마켓을 통해 정기적으로 서비스되는 뉴스와 소설 등의 컨텐츠도 텍스트 정보로서 거래될 수 있다.
원천 데이터의 획득 이후, 획득된 원천 텍스트(raw text)에 대해 질의 응답 구조의 자연어 처리를 수행하는 1차 데이터 처리 절차가 수행될 수 있다.
1차 데이터 처리 절차는 서버에서 앱 등을 통해 획득된 원천 텍스트에 대해 질의 응답 구조의 자연어 처리하는 과정을 포함할 수 있다. 1차 데이터 처리 절차는 우선 원천 텍스트의 통계적 패턴과 사용 어휘 또는 어휘 간에 연결 관계 등을 추출하는 작업을 포함할 수 있다. 원천 텍스트의 통계적이고 확률적인 패턴이 추출되면 원천 텍스트의 통계적이고 확률적인 패턴은 원천 텍스트에 대한 질의에 대응해서 질의 대상 텍스트를 질의에 관련된 응답으로 재구성되어 출력될 수 있다. 구체적으로는 통계적이고 확률적인 방식으로 질의와 관련된 텍스트 내에 문장들을 재조합하여 응답으로써 출력하는 등의 과정이 포함될 수 있다.
또한, 질문처리 모듈과 응답처리 모듈을 설계하여 원천 텍스트를 자연어 처리한 1차 원천 데이터에 관한 질의에 대해 좀 더 구조적이고 일관된 응답을 추출할 수도 있다.
또한, 1차 원천 데이터 처리된 텍스트는 서버에 데이터베이스화되어 통신을 통한 클라이언트의 요청에 대응할 수 있다. 1차 원천 데이터는 별도의 기기에 이식되어 통신 없이 기기만으로 질의 응답이 수행될 수도 있다.
한편, 원천 텍스트를 질의 응답 구조의 자연어 처리한 1차 원천 데이터를 언어 처리 머신으로 통신 또는 이식하여 언어 처리 머신은 사용자와 질의 응답을 수행할 수 있다. 또한, 언어 처리 머신은 후술되는 모델링 데이터나 그러한 모델링 데이터의 결합인 언어관을 이식하여 별도의 통신 없이 사용자와 질의 응답을 수행 할 수도 있다.
언어 처리 머신은 STT(speech to text)와 TTS(text to speech) 기능을 수행할 수 있는데, 이러한 기능은 사용자가 언어 처리 머신에게 말한 음성 정보를 텍스트로 변환할 수 있다.
즉, 언어 처리 머신은 사용자의 음성 질의를 텍스트로 변환하여 질의 응답 구조의 자연어 처리된 1차 원천 데이터를 검색한 후 응답으로 재구성한 텍스트를 다시 음성으로 바꾸어서 사용자에게 전달하도록 구현될 수 있다. 즉, 언어 처리 머신은 사용자와 음성으로 질의 응답을 수행할 수 있다.
다음은 일상적 대화에 관한 집단 지성 처리에 관한 것이다. 언어 처리 머신의 사용 목적이 지식 획득이라면 사용자 질의에 대응해 가장 정답 확률이 높은 응답을 추출하는 것이 주요 목적이겠으나 사용자의 목적이 단순히 일상적 대화라면 정답이라는 개념을 정의하는 문제는 단순하지 않을 수 있다.
우선, 자연어 처리 등을 통해 정답을 추출하려면 원천 텍스트가 사용자의 대화 목적으로서의 질의에 대응한 적절한 응답을 포함하고 있어야 한다. 하지만, 대화 목적의 적절한 원천 텍스트를 특정하기 어려울 수 있고 대화의 적절한 응답이라는 개념이 지식 획득에 관한 정답처럼 특정되기 어려울 수 있기 때문이다.
또한, 원천 텍스트가 추출 가능한 적절한 응답을 포함하고 있더라도 그러한 응답을 대화 형식에 맞춰서 연속해서 전개하는 프로세스를 기계적으로 처리시키는 것이 어려울 수도 있다.
상술한 문제점들을 개선하기 위해 본 발명의 실시예에서는 대화형 질의에 응답이 될 수 있을 만한 원천 텍스트를 획득하고 그러한 원천 텍스트를 질의 응답 형태의 자연어 처리와 질의 모듈, 응답 모듈의 구성 등을 통해 질의 응답이 가능한 구조의 1차 원천데이터를 구성한 후 1차 원천데이터를 기반으로 사용자와의 질의 응답 데이터를 획득하는 절차가 개시된다.
우선, 사용자는 앱 등을 통해 일상적 대화와 관련된 원천 텍스트를 획득하여 사용자 계정을 통해 언어 처리 머신으로 통신 또는 이식시킬 수 있다. 원천 텍스트는 그 자체로 언어 처리 머신으로 통신 또는 이식되는 것이 아니라, 원천 텍스트가 질의 응답 구조의 자연어 처리되고 질의 응답 모듈이 구성된 형태의 1차 원천 데이터로 이식될 수 있다. 또한 이미 1차 원천 데이터를 이식시킨 다른 사용자와 다른 언어 처리 머신 간의 질의 응답 데이터가 보강된 후의 1차 원천 데이터가 이식 될 수 있다.
예를 들어, 사용자는 앱 등을 통해 사용자가 선호하는 문학작품(예를 들어 소설)등의 데이터를 획득할 수 있다. 이렇게 획득된 소설 데이터는 소설을 원천 텍스트로 질의 응답 구조의 자연어 처리되고 질의 응답 모듈이 구성된 1차 원천 데이터일 수 있고, 1차 원천 데이터를 기반으로 다른 사용자와 다른 언어 처리 머신 간의 질의 응답 데이터가 더 포함된 1차 원천 데이터 일 수도 있다.
1차 원천 데이터를 통해 언어 처리 머신과 사용자는 일상 생활에서 일상적 대화로서의 질의 응답을 수행할 수 있다. 언어 처리 머신 에게 사용자가 무작위로 발화한 언어 패턴 중 이식된 소설과 관련된 언어 패턴이 있을 경우 언어 처리 머신은 소설의 1차 원천 데이터 내에서 응답을 추출해 사용자에게 발화할 뿐 아니라, 신규로 획득된 질의와 응답을 소설의 1차 원천 데이터에 추가시킬 수도 있다.
상술한 대화에 관한 집단 지성 처리 과정을 통해 획득된 1차 원천 데이터는 신고 처리에 의한 블라인드, 사용자 제제 등의 관리를 통해 필터링될 수 있으며 최종적으로 특정 시점에 주기적으로 데이터를 확정시켜서 모델링될 수도 있다.
한편 뉴스와 같은 컨텐츠는 자연어 처리되지 않은 원천 컨텐츠 그 자체로서 중요할 수 있다. 이러한 경우 자연어 처리되지 않은 원천 컨텐츠와 자연어 처리된 1차 원천 데이터를 연동시켜서 처리하는 등 컨텐츠의 성격에 따른 세부적 구현 방식은 조정될 수 있다.
전문 지식에 관한 집단 지성 처리는 아래와 같이 수행될 수 있다. 우선 사용자는 앱 등을 통해 획득된 전문 지식에 관한 원천 텍스트를 사용자 계정을 통해 언어 처리 머신으로 통신 및/또는 이식시킬 수 있다. 원천 텍스트는 그 자체로 언어 처리 머신으로 통신 및 이식되는 것이 아니라, 원천 텍스트는 질의 응답 구조를 가지는 자연어 처리되고 질의 응답 모듈이 구성된 형태의 1차 원천 데이터로 이식될 수 있다.
또한, 기계적 과정만으로 처리 가능한 질의의 경우, 응답이 기계적으로 해결된 후 집단 지성 구조의 사전에 색인된 해당 분야에 자동적으로 추가될 수 있다.
색인의 방식은 클러스터링을 통해 자동적으로 분류하거나 사전에 미리 색인 분류를 처리할 수도 있다.
한편, 사용자는 언어 처리 머신에서 1차 원천 데이터에 대한 1차 질의를 통해 도출된 1차 응답으로는 원하는 응답을 얻을 수 없는 경우 응답이 완결되지 못한 질의를 특정한 명령을 통해 집단 지성 사전으로 전달 할 수 있다.
집단 지성 사전에 등록된 질의는 색인된 해당 질문 분야에 최신의 질의로서 등록되고 앱 내 사용자 계정을 통해 해당 질의의 분야를 관심 분야로 등록한 해당 분야의 전문가 또는 활동가에게 우선적으로 통지가 갈 수 있다.
통지는 앱을 통한 푸쉬(push)나 해당 분야의 전문가 또는 활동가가 보유한 각각의 언어 처리 머신을 통해서 질의가 발화될 수 있고 해당 음성 질의에 대한 음성 응답이 실시간 또는 지연 방식으로 이루어진 경우 그 음성 답변은 그대로 텍스트화되어 질의에 대한 응답으로서 집단 지성 사전에 기록될 수 있다.
또한 전문가나 활동가가 집단 지성 사전에 직접 텍스트로서 응답을 작성하는 것도 가능할 수 있다. 집단 지성을 통해 질의에 대한 신규 응답이 등록된 경우 그 사실에 관해 질의를 의뢰한 사용자의 앱을 통한 푸쉬 등을 통해 통지가 가거나 사용자가 언어 처리 머신을 재구동했을 경우 신규 응답을 통보해줄 수 도 있다.
하나의 질의에 대한 복수개의 응답이 등록된 경우 질의에 대한 응답의 우선 순위가 문제될 수 있는데 이러한 우선 순위의 문제는 집단 지성 사전에서 각각의 응답에 대한 추천수를 집계하거나 언어 처리 머신을 통해 응답 받은 질의자가 응답에 대한 평가를 하도록 해서 그러한 수치를 반영해서 순서를 조정해 응답하는 등의 수단을 활용해 우선성의 문제를 해결 할 수도 있다.
상술한 과정을 통해 특정 텍스트에 대한 질의가 기계적으로 처리 가능한 부분과 사람을 통해서 해결 가능한 부분이 서로 협동하여 특정 텍스트를 질의 응답 구조에 최적화된 지식 사전 등의 형태로 변환할 수 있다.
즉, 무형적인 지식 등의 텍스트가 상술한 기계적인 처리 과정 및 집단 지성의 처리 과정 등을 통해 질의 응답 구조로 변환해가는 일련의 체계를 프로세스화 했다고 볼 수도 있다.
특정 텍스트 색인에 대한 집단 지성 사전이 구축되면 사용자는 특정한 주제를 질의할 때 질의의 옵션을 지정하여 원천 텍스트 제한 방식 혹은 집단 지성 사전 제한 방식 그리고 이 두 가지 방식을 혼합하여 질의를 수행할 수도 있다.
다음은 상술한 과정을 통해 확보된 질의 응답 데이터를 모델링하는 과정이 개시된다. 상술한 일련의 텍스트 처리 과정을 통해 인간의 집단 지성과 기계적인 방식이 서로 협동하여 특정한 목적과 주제에 특화된 질의 응답 구조의 자연어 처리된 1차 원천 데이터의 텍스트 뭉치(corpus)가 확보될 수 있다. 확보된 질의 응답 세트에서 응답의 질을 평가하여 기준에 미달하는 답변이 필터링되는 경우, 특정 목적과 주제에 관한 양질의 질의 응답 구조의 자연어 처리된 1차 원천 데이터의 텍스트 뭉치가 확보될 수 있다.
최종적으로 확보된 질의 응답 텍스트 뭉치에서 질의 부분은 자연어 처리를 수행하는 과정에서 제외되고 응답 부분만을 원천 텍스트로서 사용할 수 있다. 그 이유는 아래와 같다. 자연어 처리의 특성상 질의에 대응해서 원천 텍스트를 기계적으로 분석해서 응답부를 추출한다. 만약, 질의 부분 자체가 다시 응답부의 원천 텍스트 내에 포함되는 경우, 통계가 혼돈될 수 있고 질의 텍스트 자체는 응답 자체의 품질에 크게 관여하지 않을 수 있기 때문이다. 다만 질의 부분은 질문 모듈을 구성할 때 통계적 참조 기반으로 사용될 수 있다.
한편, 최종 모델링을 위한 자연어 처리 과정은 최종 모델링 데이터를 구성함에 있어서 전문 지식 데이터를 모델링하는 것과 일상적 대화 데이터를 모델링하는 것은 다를 수 있다. 구체적으로 일상적 대화같은 경우, 질의부 자체가 응답부를 구성할 수 있고 그 역도 가능하기 때문에 일상적 대화 데이터를 모델링하는 과정은 질의부와 응답부를 통합한 데이터를 필터링시켜 처리할 수도 있다.
위와 같은 과정을 통해 확보된 질의 응답 텍스트 뭉치에 대한 필터링과 모델링을 통해 특정 텍스트(분야)에 관한 정제된 질의 응답 모델링 데이터가 확보될 수 있다.
도출된 모델링 데이터는 앱 등을 통해 언어 처리 머신에게 이식될 수 있고, 도출된 모델링 데이터를 기반으로 별도의 통신 과정 없이 사용자와 의사 소통이 수행될 수 있다.또한 전문 지식 목적의 경우 기존 모델링 데이터로 해결되지 못한 질의 역시 통신을 통한 집단 지성 처리와 재모델링의 과정을 거쳐서 생성된 신규 모델링 데이터를 앱 등을 통해 이식해서 해결할 수도 있다.
다음은 상술한 방식으로 확보된 특정 분야의 모델링 데이터를 바탕으로 언어관을 도출하는 과정이 개시된다.
특정 텍스트 색인에 제한되는 통계적 모델링의 특징은 특정 분야의 질의 응답에는 특화되어 있지만 여러 분야에 걸친 질의일 경우 이를테면 간 학문적 질의와 같은 패턴을 처리하는데 어려움을 겪을 수 있다. 그렇다고 해서 처음부터 여러 분야의 패턴을 섞게 되면 특정 분야의 질의에 효과적으로 대응하지 못할 수 있다.
이를 위해 기완성된 특정 분야의 질의 응답 모델링 데이터를 모델링 데이터 (A)라 지칭하고 또 다른 분야의 기완성된 모델링 데이터를 모델링 데이터 (B)라 지칭하면 모델링 데이터 (A)와 모델링 데이터 (B)를 자연어 처리를 통해 결합시키면 모델 고유의 통계적 또는 확률적 패턴을 훼손시키지 않으면서도 두 분야의 질의 응답 텍스트 뭉치의 통계적 패턴과 사용 어휘 또는 어휘 간에 연결 관계 등이 유기적으로 결합될 수 있다.
즉, 두 분야의 모델링 데이터가 하나로 결합되어 사전에 예측하지 못한 효과가 발생할 수도 있는데 이는 2개의 모델링 데이터가 합쳐져 하나의 언어관을 형성했다고 볼 수도 있다. 상술한 과정을 통해 다양한 특성의 언어관을 형성하는 작업이 수행될 수 있다.
다음으로 상술한 과정으로 확보된 언어관을 바탕으로 사용자의 센서 값이 수집되고 언어관과 그 언어관 내부의 언어 패턴에 관련된 센서 값을 모델링할 수 있다.
사용자와 언어 처리 머신이 의사소통을 할 때 단순히 텍스트만 교환하는 것이 아니라 각종 센서 값을 동시에 교환할 수 있다. 예를 들어, 사용자가 언어 처리 머신에게 특정 감정 상태(예를 들어 우울한 상태)에서 어떤 대화를 시도하였을 경우, 언어 처리 머신은 사용자의 언어 패턴을 수집하는 동시에 센싱을 통해 간접적으로 파악 가능한 사용자의 정보들의 센서 값의 집합 즉, 각각의 언어 패턴에 대응하는 센서 값들의 집합을 수집할 수 있다.
또한, 특정 색인이나 언어관 또는 그 내부의 언어 패턴에 대응해 수집한 다양한 센서 값의 집합을 원천 텍스트 주체와 관련지어 모델링하면 특정 색인이나 언어관 또는 그 언어 패턴과 직접적으로 대응되는 고유의 센서 모델링 데이터를 각각의 언어 패턴에 연동할 수 있다.
즉, 언어 패턴과 연동된 표준화된 고유한 센서 값의 모델링 데이터가 확보되면 언어 처리 머신은 사용자를 센싱함으로서 확보할 수 있는 단순한 센서 값 집합만으로도 그러한 센서 값 집합이 어떤 센서 모델링 데이터와 가까운 지에 대한 우선 순위를 판단하여 해당되는 센서 모델링 데이터를 결정한 후 그러한 센서 모델링 데이터가 어떤 색인이나 언어관 혹은 언어관 내부의 언어 패턴과 연동 되어있는지에 관한 우선성을 계산할 수 있다. 이를 통해 언어 처리 머신이 사용자의 의도를 파악할 때 정확도를 높일 수 있는 등의 효과를 획득할 수 있다.
도 1은 본 발명의 실시예에 따른 언어관 획득 프로세스를 수행하는 시스템을 나타낸 개념도이다.
도 1을 참조하면, 언어관 획득 프로세스를 위한 시스템 컨텐츠를 관리하고 자연어 처리를 수행 할 수 있는 앱과 서버 그리고 언어 처리 머신을 포함할 수 있다.
언어 처리 머신은 메인보드(또는 프로세서)(100), 메모리(110), 오디오 처리부(120), 통신부(130), 위치 인식부(140), 센서부(150)를 포함할 수 있다. 센서부(150)는 바이오 센서, 모션 센서, 조도 센서, 습도 센서, 온도 센서 등을 포함할 수 있다.
오디오 처리부(120)는 언어 처리 머신에 구현된 마이크를 통해 수신된 음성 정보를 처리하여 메인 보드(100)로 전송하기 위해 구현될 수 있다. 또한 메인 보드(100)에서 나오는 텍스트 정보를 음성 정보로 변환하여 스피커 등의 장치로 사용자에게 발화하는 역할을 수행할 수 있다.
센서부(150)에 포함되는 센서들은 직접적으로 사용자의 특징(예를 들어 감정 등)을 도출하지는 않고, 센싱을 통해 파악 가능한 각각의 언어패턴에 대응하는 센서 값들의 집합을 수집할 수 있고, 서버에서 각각의 언어패턴과 관련된 센서 값들의 집합을 모델링 하여 특정 언어패턴과 직접적으로 대응되는 고유의 센서 모델링 데이터를 각각의 언어패턴에 연동 하도록 구현될 수 있다.
언어패턴에 연동되는 센서 모델링 데이터가 확보되면 추후에 특정 언어패턴과 관련되어 특정 센서집합이 센싱된 경우, 그와 관련하여 언어 패턴에 대한 보다 정확한 해석이 이루어질 수 있다.
모션 센서는 사용자의 움직임에 관한 정보들을 수집할 수 있다. 단순히 모션만이 아니라 사용자의 언어 패턴의 해석을 위해 사용될 수 있는 모션 정보를 센싱할 수 있다.
조도 센서, 온도 센서, 습도 센서 등의 센서부는 밝기나 온도 등의 값과 관련된 사용자의 언어 패턴을 세밀하게 추적하여 언어 패턴에 포함되는 사용자의 감정 상태를 간접적으로 파악하는데 있어 정확도를 높일 수 있다. 마찬가지로 바이오 센서는 바이오 정보 획득을 위한 웨어러블 기기를 사용하는 사용자의 바이오 정보를 센싱하고, 언어 처리 머신은 센싱된 바이오 정보를 기반으로 사용자의 감정 상태를 간접적으로 파악하여 언어 패턴에 대한 판단의 정확도를 높일 수 있다.
위치 인식부(140)는 GPS(global positioning system) 등을 이용하여 주 사용자의 위치에 대한 정보를 획득하기 위해 구현될 수 있다. 위치 인식부(140)는 주 사용자가 아닌 개체의 언어 패턴에 대한 수용을 배제하는 역할 또한 담당할 수 있다.
메인보드(100)는 STT(speech to text), TTS(text to speech), 데이터 조작 및 관리 등을 위해 구현될 수 있다. STT(speech to text)는 음성 인식, 음성 합성 등의 기술 또는 이를 적용한 API(application programming interface)등을 이용해 음성을 텍스트로 변환하는 역할을 담당하고, TTS는 텍스트를 음성으로 변환하는 역할을 담당할 수 있다.
메인 보드(100)는 입력 데이터 관리를 위해 사용자의 특정한 언어 패턴이 실행되었을 때 그 시점의 센서부(150)를 통해 파악된 센서 값들을 집합을 언어패턴에 매칭시키고 서버로 전송할 수 있다. 또한 서버로 전송된 사용자의 언어패턴과 센싱값에 대한 정보들은 사용자계정에 통계적으로 기록되어 학습될 수 있다.
메모리부(110)는 고속 랜덤 엑세스 메모리 또는 하나 이상의 자기 디스크 저장 디바이스, 하나 이상의 광학 저장 디바이스, 플레쉬 메모리와 같은 비휘발성 메모리를 포함할 수 있다.
통신부(130)는 로컬 영역 네트워크(LAN) 및 광역 네트워크(WAN) 또는 다양한 유무선 프로토콜 예를 들어 이더넷, 범용 직렬 버스, Wi-Fi 임의의 다른 적합한 통신 프로토콜을 포함하는 임의의 알려진 네트워크 프로토콜을 사용하여 구현 될 수 있다.
도 2는 본 발명의 실시예에 따른 일상적 대화 목적의 모델링데이터 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
도 2에서는 일상 대화에 관해 사용자와 언어 처리 머신 간의 대화 프로세스가 작동하는 방식이 개시된다.
도 2를 참조하면, 최초에 언어 처리 머신은 사용자에 관한 정보가 없기 때문에 사용자가 발화한 언어패턴(200)에 적합한 색인분류를 즉각적으로 채택 못할 수 있다. 그러나 시간이 지날수록 사용자의 언어패턴(200)과 센서값(210)이 학습되면 점점 언어 처리 머신의 반응은 사용자가 원하는 바를 추적해 갈 수 있다.
즉 사용자가 선호하는 언어패턴(200)에 관한 통계적 조건을 학습한 후 그에 따른 색인선택의 우선 순위를 조정하는 등의 기능을 수행할 수 있다.
예를 들어, 한 주부의 평일의 일상 중 언어 처리 머신이 일상적 대화에 관여하는 시점은 오전 5시에 기상해서 아침을 준비하기 전까지, 오후 5시에 아이들을 집에서 데려오고 난 이후, 오후 6시에 저녁식사 준비 할 때 등으로 가정할 수 있다.
언어 처리 머신은 사용자인 주부가 언어 처리 머신을 작동시키고 이후 수행한 대화들을 지속적으로 학습할 수 있다. 예를 들어 사용자인 주부는 아침에는 주로 지난밤에 본 드라마에 대한 기사를 검색하고 그와 관련해서 대화하길 원할 수 있다. 이를 테면 "(특정 드라마의) (최신기사) 중 (댓글)이 (가장 많은) 기사를 검색" 이라고 말할 수 있다. 이와 같이 언어 처리 머신은 일상 생활 중, 주부에 의해 발화된 언어 패턴(200) 및 센서값(210)을 수집할 수 있다. 언어 처리 머신은 주부에 의해 발화된 언어 패턴(200), 센서값(210)과 관련된 해당 조건에 맞는 드라마의 최신 기사 중 최다 댓글 기사를 검색하여 주부에게 발화 할 수 있다.
또한, 언어 처리 머신이 드라마 기사에 관한 주부의 질의에 대응 하기 위한 응답부의 구성은 드라마 기사에 연동된 1차 원천 데이터로서, 드라마의 최신기사(A) 또는 최신시점까지 기사의 합(A`), 그 각각에 기사 대한 웹상의 댓글(B) 또는 최신시점까지의 댓글의 합(B`)을 원천 텍스트로 질의 응답 구성의 자연어 처리된 1차 원천데이터(A / A` + B / B`) 일수 있는데 1차 원천데이터의 질의 범위는 사용자가 개별적으로 선택될 수도 있다.
상술한 방식으로 획득된 질의 응답 구조의 자연어 처리된 1차 원천 데이터(220)는 일 실시예에서의 방식으로 질의 모듈과 응답 모듈을 구성한 후 1차 원천 데이터(220)를 서버(260)를 통해 드라마 기사의 원천 텍스트에 연동시킬 수 있다.
언어 처리 머신이 주부에게 드라마 기사의 원천 텍스트를 그 자체로 발화하고 주부가 그에 대한 반응(C)을 말하면 언어 처리 머신은 그 반응을 기사의 신규 음성 댓글(C)로 인식함과 동시에 기사에 연동된 1차 원천데이터(220)에 대한 질의(C)로 인식하여 그에 대한 응답(D)으로 1차 원천데이터(220)를 통계적이고 확률적인 방식으로 추출하여 주부에게 응답(D)할 수 있다.
즉, 언어 처리 머신이 사용자에게 전달한 기사에 대응한 사용자의 신규 반응 데이터(C)가 더해지면 이에 대응해 기사에 연동된 1차 원천 데이터(A` + B`)에서 추출한 신규 응답 데이터(D)가 생성될 수 있다 (C - > A` + B` -> D).
기사에 대한 사용자의 신규 반응 데이터(C)에 대응하여 언어 처리 머신을 통해 1차 원천데이터(A` + B`)에서 추출한 신규 응답 데이터(D)는 다시 최신시점까지 댓글의 합(B`)으로 1차 원천 데이터에 포함될 수 있다 (C + D -> B`).
과정이 반복적으로 수행되면 사용자는 마치 언어 처리 머신과 대화를 하는 듯한 효과를 낼 수 있다. 또한 드라마가 종료될 때까지 주기적으로 업데이트되는 원천 텍스트와 1차 원천 데이터를 필터링 및 모델링을 하면 특정 기사의 이슈를 포괄하는 질의 응답 데이터의 모델링 데이터(240)을 획득할 수도 있다.
확보된 대화 목적의 질의 응답 데이터를 모델링 한 모델링 데이터(240)는 단순한 정답을 추출하기 위한 지식 기계의 목적이 아니라 사용자와 친구로서 일상적인 대화를 나눌 수 있는 특정 분야의 배경 지식의 결합(모델링 데이터의 결합)한 일상적 대화 목적의 대화 로봇 등의 기능을 수행할 수도 있다.
한편 질의 응답 데이터를 모델링하여 모델링 데이터(240)를 얻는 세부적인 형식은 뉴스와 댓글 형식에 제한되지 않고 다양하게 변형될 수 있다.
도 3은 본 발명의 실시예에 따른 전문 지식 목적의 모델링 데이터 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
도 3에서는 전문 지식에 관해 사용자와 언어 처리 머신 간의 질의 응답 프로세스가 작동하는 방식이 개시된다.
예를 들어, 사용자가 지적 재산권에 관한 데이터를 마켓을 통해 언어 처리 머신으로 이식했다고 가정할 수 있다. 언어 처리 머신으로 이식되는 데이터는 지적 재산권에 대한 질의 응답 구조의 자연어 처리된 1차 원천 데이터(300) 또는 지적 재산권에 대한 1차 원천 데이터(300)를 기반으로 다른 사용자와 다른 언어 처리 머신 간의 질의 응답을 기록한 자료들을 공유해서 집단 지성(310)에 의해 지속적으로 수정 및 보완되는 데이터일 수 있다.
사용자는 언어 처리 머신 에게 "(지적 재산권)은 어떤 (종류)가 있나요"라는 질의를 할 수 있고, 언어 처리 머신은 질의에 대한 응답으로 "지적 재산권의 종류는 특허권, 실용실안권, 상표권, 디자인권 등이 있습니다."라고 대답할 수 있다.
단순한 형태의 질의는 질의어에 대응해 기계적인 방식으로 대상 텍스트에 관한 응답을 추출하는 방식으로 해결될 수도 있다. 기계적인 방식으로만 해결 가능한 질의는 그 자체로 질의 응답 쌍이 집단 지성 사전에 등록 될 수 있다.
한편, 기계적인 방식으로 해결 가능한 질의와 달리 특별히 사고력을 요하는 질의 또한 있을 수 있다. 예를 들어, 사용자가 언어 처리 머신에게 "(날개 없는 선풍기)는 (특허가 맞습니까)?" 라는 판단 류의 논리적 질의를 할 수 있다.
언어 처리 머신은 이러한 사고력을 요하는 질의에 대해서 기존 데이터에 "(날개 없는 선풍기) 는 (특허가 맞다) 혹은 (아니다)" 와 관련된 언어패턴적 구조가 기 등록되지 않았을 경우 언어 처리 머신은 기계적인 방식만으로는 완성도 있는 응답을 제공하기 곤란 할 수 있다.
실패한 질의에 대해 사용자는 "사전에 올려주세요" 같은 명령어를 통해 해당 질의만을 집단지성 사전에 등록 할 수 있다. 즉, 위키피디아처럼 집단 지성(310)의 구조에서 응답이 실패한 질의에 대해서 전문가 등이 질의에 대한 응답을 작성할 수 있다.
실패한 "(날개 없는 선풍기)는 (특허가 맞습니까)?"라는 질의에 대한 응답으로 "(날개 없는 선풍기)는 기존에 없는 기술이기 때문에 특허성은 있었습니다. 다만 이미 영국에 다이슨 이라는 회사에서 선행해서 등록한 기술이므로 신규특허는 (불가) 합니다" 라는 답이 업데이트된 최신의 텍스트 정보로서 집단지성 사전에 등록된 경우, 언어 처리 머신은 이러한 집단지성 사전에 업데이트된 응답텍스트 정보를 가져와서 질의자에 통보해 줄 수 있다.
상술한 과정을 통해 특정 분야의 전문지식과 관련된 충분한 데이터가 확보되고 그것이 안정적으로 모델화되어 모델링 데이터(320)가 형성된 이후에는 시용자의 대화 그리고 전문가와 기타 교정자들의 작업이 없더라도 전문지식에 관해 신규 사용자가 별다른 추가 노력 없이 질의 응답 서비스를 이용할 수도 있다.
도 4는 본 발명의 실시예에 따른 두 가지 이상의 모델링 데이터를 하나로 모델링하여 단일한 언어관 획득 프로세스를 수행하는 절차를 나타낸 개념도이다.
기 형성된 한 분야에 특화된 모델링 데이터를 모델링 데이터 (A)(400)라 지칭하고 또 다른 분야에 특화된 모델링 데이터를 모델링 데이터 (B)(410)라 지칭하면 두 분야의 모델링 데이터 (A) 와 (B)를 다시 하나로 모델링 하여(A + B) 새로운 모델링 데이터 (C)를 도출 할 수 있다(A + B = C). 다만 모델링 데이터 (A) 와 (B)를 기반으로 생성된 새로운 모델링 데이터 (C)는 완전히 새로운 모델링 데이터가 아니라 (A) 와 (B)를 기반으로 하여 두 가지 텍스트 구조의 통계적 확률 패턴과 사용 어휘 등이 하나로 합쳐진 것이다.
또한, 모델링 데이터 (A) 와 (B)를 결합하여 확보된 새로운 모델링 데이터 (C)는 기존의 모델링 데이터를 활용하지만 기존의 모델링 데이터 만으로는 얻을 수 없는 새로운 조합효과 또한 획득되므로 상술한 모델링 데이터 (A) 와 (B)의 결합으로 획득된 모델링 데이터 (C)는 새로운 언어관(420)으로 정의 될 수도 있다 {A + B = C = 언어관(420)}.
상술한 모델링 데이터를 결합하여 언어관(420)을 형성하는 것의 예시로 특정분야에 관한 신문기사를 학습한 모델링 데이터 (A)(400)와 법학을 학습한 모델링 데이터 (B)(410)를 결합하면 특정분야의 시사와 법에 관해 각 모델링 데이터(A, B)의 각각의 언어적 규칙안에서 대량의 언어적 조합 데이터가 계산되어 기존의 방식으로 쉽게 예측할 수 없는 정보를 제시할 수 있는 진보된 언어관(420)이 획득될 수도 있다 (시사 + 법학 = 특정 학문과 그에 관련된 기사화된 실제 사례의 기계적 결합 = 특화된 언어관).
도 5는 본 발명의 실시예에 따른 일상적 대화 목적의 모델링 데이터 획득 프로세스를 나타낸 순서도이다.
도 5에서는 도 2에서 개시한 언어 처리 머신이 일상적 대화 목적의 모델링 데이터를 획득하는 절차가 개시된다.
도 5를 참조하면, 언어 처리 머신은 일상적 대화에 관한 원천 텍스트에 관해 질의 응답 구조의 자연어 처리된 1차 원천 데이터를 서버로부터 사용자 계정을 기반으로 수신하거나 서버로부터 1차 원천 데이터를 이식 받는다(단계S500).
언어 처리 머신은 사용자에 의해 발화된 언어 패턴에 대한 정보와 관련된 1차 원천 데이터를 탐색한 후, 1차 원천 데이터를 기반으로 사용자의 질의에 대한 응답 절차를 수행한다(단계 S510).
언어 처리 머신은 신규로 획득된 사용자와의 질의 응답 기록을 일상적 대화 정보의 원천 텍스트가 있는 서버로 전송한다 (단계 S520).
서버에서 신규로 획득되어 보강된 원천 텍스트를 질의 응답 구조의 자연어 처리시켜 획득된 1차 원천 데이터는 다른 사용자의 다른 언어 처리 머신으로 전달되어 재보강될 수 있다(단계S530).
언어 처리 머신은 서버에서 일상적 대화에 관한 질의 응답 데이터 베이스를 일정 기준으로 필터링시킨 후, 획득된 질의 응답 데이터를 기반으로 생성된 모델링 데이터를 모델링 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 1차 원천 데이터를 이식받을 수 있다.
도 6는 본 발명의 실시예에 따른 전문지식 목적의 모델링 데이터의 획득 프로세스를 나타낸 순서도이다.
도 6에서는 도 3에서 개시한 언어 처리 머신이 전문 지식에 관한 모델링 데이터를 획득하는 절차가 개시된다.
도 6를 참조하면, 언어 처리 머신은 전문 지식에 관한 원천 텍스트 관해 질의 응답 구조의 자연어 처리된 1차 원천 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 1차 원천 데이터를 이식 받는다(단계S600).
언어 처리 머신은 사용자에 의해 발화된 언어 패턴에 대한 정보와 관련된 1차 원천 데이터를 탐색한 후, 1차 원천 데이터를 기반으로 사용자의 질의에 대한 1차 응답을 수행한다(단계 S610).
언어 처리 머신은 1차 원천 데이터를 기반으로 사용자의 질의에 대한 1차 응답을 사용자에게 전달할 수 있다. 언어 처리 머신 은 1차 원천 데이터의 부족으로 사용자의 질의에 대한 1차 응답을 사용자에게 전달하지 못할 수도 있다. 또는 사용자가 언어 처리 머신에 의해 전달된 1차 응답에 부족함을 느낄 수도 있다.
언어 처리 머신은 1차 응답이 부족한 경우, 사용자의 명령에 의해 해당 질의를 집단지성사전으로 보내고 집단 지성 사전에 응답이 등록되면 질의한 사용자에게 2차 응답을 전달할 수 있다(단계 S620).
언어 처리 머신은 인간에 의해 집단지성사전에 업데이트된 최신의 텍스트 정보를 2차 응답 정보로 인식할 수 있고 응답이 등록된 사실에 관해서 질의한 사용자의 앱 을 통해 푸쉬를 주거나 질의한 사용자가 언어 처리 머신 을 재 구동 시켰을 시 질의에 대한 응답이 등록되었음을 통지 할 수도 있다.
언어 처리 머신 은 서버에서 전문지식에 관한 질의 응답 데이터 베이스에서 일정 기준으로 필터링 시킨 후 획득된 질의 응답 데이터를 기반으로 생성된 모델링 데이터를 모델링 데이터가 저장된 서버의 사용자 계정을 통신하거나 서버로부터 1차 원천 데이터를 이식 받을 수 있다(단계 S630).
이와 같은 기계 학습 기반으로 언어를 처리하는 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (10)

  1. 기계 학습 기반으로 언어를 처리하는 방법은,
    언어 처리 머신이 1차 원천 데이터가 저장된 서버와 사용자 계정을 기반으로 통신하여 상기 1차 원천 데이터를 수신하거나 상기 서버로부터 1차 원천 데이터를 이식받는 단계;
    상기 언어 처리 머신이 사용자에 의해 발화된 언어 패턴에 대한 정보를 기반으로 상기 1차 원천 데이터를 탐색하는 단계;
    상기 언어 처리 머신이 상기 1차 원천 데이터를 기반으로 상기 사용자와 질의 응답 절차를 수행하는 단계를 포함할 수 있되,
    상기 1차 원천 데이터는 언어 패턴과 관련되어 기존의 원천 텍스트를 기반으로 생성된 일상적 대화 정보 또는 전문 지식 정보에 관한 질의 응답 구조의 자연어 처리된 텍스트 데이터 또는 다른 사용자와 다른 언어 처리 머신 간의 데이터가 더 보강된 원천 데이터이고,
    상기 서버는 상기 1차 원천 데이터에서 확보된 질의 응답 세트에서 응답의 질을 평가하여 기준에 미달하는 답변을 필터링하여 텍스트 뭉치(corpus)를 생성하고,
    상기 서버가 상기 텍스트 뭉치를 기반으로 모델링 데이터를 도출하고,
    상기 모델링 데이터는 상기 언어 처리 머신으로 이식되는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 언어 처리 머신이 상기 질의 응답 절차에 따른 기록을 상기 서버로 전송하는 단계;
    상기 언어 처리 머신이 학습된 상기 사용자의 특성 정보를 기반으로 상기 사용자와 질의 응답을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 모델링 데이터는 상기 언어 처리 머신에서 다른 모델링 데이터와 합쳐져 하나의 언어관을 형성하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 질의 응답 절차는 상기 언어 처리 머신에 의해 수집된 센서 값을 기반으로 수행되는 것을 특징으로 하는 방법.
  6. 기계 학습 기반으로 언어를 처리하는 언어 처리 머신에 있어서,
    상기 언어 처리 머신은 프로세서를 포함하고,
    상기 프로세서는 1차 원천 데이터가 저장된 서버와 사용자 계정을 기반으로 통신하여 상기 1차 원천 데이터를 수신하거나 상기 서버로부터 1차 원천 데이터를 이식받고,
    사용자에 의해 발화된 언어 패턴에 대한 정보를 기반으로 상기 1차 원천 데이터를 탐색하고,
    상기 1차 원천 데이터를 기반으로 상기 사용자와 질의 응답 절차를 수행하도록 구현되되,
    상기 1차 원천 데이터는 언어 패턴과 관련되어 기존의 원천 텍스트를 기반으로 생성된 일상적 대화 정보 또는 전문 지식 정보에 관한 질의 응답 구조의 자연어 처리된 텍스트 데이터 또는 다른 사용자와 다른 언어 처리 머신 간의 데이터가 더 보강된 원천 데이터이고,
    상기 서버는 상기 1차 원천 데이터에서 확보된 질의 응답 세트에서 응답의 질을 평가하여 기준에 미달하는 답변을 필터링하여 텍스트 뭉치(corpus)를 생성하고,
    상기 서버가 상기 텍스트 뭉치를 기반으로 모델링 데이터를 도출하고,
    상기 모델링 데이터는 상기 언어 처리 머신으로 이식되는 것을 특징으로 하는 언어 처리 머신.
  7. 제6항에 있어서,
    상기 프로세서는 상기 질의 응답 절차에 따른 기록을 상기 서버로 전송하고,
    학습된 상기 사용자의 특성 정보를 기반으로 상기 사용자와 질의 응답을 수행하도록 구현되는 것을 특징으로 하는 언어 처리 머신.
  8. 삭제
  9. 제6항에 있어서,
    상기 모델링 데이터는 상기 언어 처리 머신에서 다른 모델링 데이터와 합쳐져 하나의 언어관을 형성하는 것을 특징으로 하는 언어 처리 머신.
  10. 제9항에 있어서,
    상기 질의 응답 절차는 상기 언어 처리 머신에 의해 수집된 센서 값을 기반으로 수행되는 것을 특징으로 하는 언어 처리 머신.
KR1020160105981A 2016-08-22 2016-08-22 기계 학습 기반으로 언어를 처리하는 방법 및 장치 KR101916174B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160105981A KR101916174B1 (ko) 2016-08-22 2016-08-22 기계 학습 기반으로 언어를 처리하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160105981A KR101916174B1 (ko) 2016-08-22 2016-08-22 기계 학습 기반으로 언어를 처리하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180021444A KR20180021444A (ko) 2018-03-05
KR101916174B1 true KR101916174B1 (ko) 2018-11-07

Family

ID=61726702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160105981A KR101916174B1 (ko) 2016-08-22 2016-08-22 기계 학습 기반으로 언어를 처리하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101916174B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021049706A1 (ko) * 2019-09-09 2021-03-18 주식회사 솔트룩스 앙상블 질의 응답을 위한 시스템 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102101817B1 (ko) * 2018-06-19 2020-04-17 주식회사 에듀템 인터넷 상에 공개된 동영상을 이용한 어학 학습 지원 장치
US11475329B2 (en) 2019-04-03 2022-10-18 RELX Inc. Systems and methods for adaptive training of a machine learning system processing textual data
KR102491931B1 (ko) * 2020-09-17 2023-01-26 고려대학교 산학협력단 대화 수행 시스템, 장치 및 방법
CN116842155A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 文本生成方法、文本生成模型的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김현기외, 오픈도메인 질의응답을 위한 검색문서 제약및정답유형분류기술, 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 v.39 no.2 ,pp. 118 - 132 , 2012

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021049706A1 (ko) * 2019-09-09 2021-03-18 주식회사 솔트룩스 앙상블 질의 응답을 위한 시스템 및 방법

Also Published As

Publication number Publication date
KR20180021444A (ko) 2018-03-05

Similar Documents

Publication Publication Date Title
KR101916174B1 (ko) 기계 학습 기반으로 언어를 처리하는 방법 및 장치
US11568855B2 (en) System and method for defining dialog intents and building zero-shot intent recognition models
EP3992859A1 (en) Machine learning system for digital assistants
US20210142794A1 (en) Speech processing dialog management
US11321535B2 (en) Hierarchical annotation of dialog acts
CN112189229B (zh) 针对计算机化个人助手的技能发现
US20180260680A1 (en) Intelligent device user interactions
CN114503115A (zh) 生成丰富的动作项目
US20180232662A1 (en) Parsers for deriving user intents
WO2018040501A1 (zh) 基于人工智能的人机交互方法和装置
JP2019537126A (ja) マルチドメインリアルタイム質問回答システム
CN109196495A (zh) 细粒度自然语言理解
US20200202859A1 (en) Generating interactive audio-visual representations of individuals
US10755177B1 (en) Voice user interface knowledge acquisition system
JP2017010517A (ja) 人工知能によるヒューマン・マシン間の知能チャットの方法および装置
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN112799747A (zh) 智能助理评价、推荐方法、系统、终端及可读存储介质
Roy The birth of a word
Chao et al. Emerging technologies of natural language-enabled chatbots: a review and trend forecast using intelligent ontology extraction and patent analytics
CN112667909B (zh) 一种智能家居中推荐场景的方法和装置
KR20190046062A (ko) 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
Chandiok et al. CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems
Bruno et al. Culturally-competent human-robot verbal interaction
WO2023273749A1 (zh) 一种播报文本生成的方法、装置和电子设备
Grassi et al. Knowledge triggering, extraction and storage via human–robot verbal interaction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant