KR102102388B1

KR102102388B1 - 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법

Info

Publication number: KR102102388B1
Application number: KR1020170155143A
Authority: KR
Inventors: 박성준; 황이규; 김원국; 김예지
Original assignee: 주식회사 마인즈랩
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2020-04-21
Also published as: US20190155907A1; KR20190057792A

Abstract

본 개시는 기계 학습을 위해, 기초문장과 유사한 유사 문장을 생성하는 시스템 및 방법에 관한 것이다. 이를 위한, 유사 문장 생성 방법은, 기초 문장에 포함된 단어와 유사한 단어를 이용하여, 제1 유사 문장을 생성하는 단계, 발화 특성에 기초하여, 상기 기초 문장 또는 상기 제1 유사 문장에 대한 제2 유사 문장을 생성하는 단계, 및 상기 제1 유사 문장 및 상기 제2 유사 문장에 대한 유효성을 검증하는 단계를 포함할 수 있다.

Description

학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법{SYSTEM FOR GENERATING A SENTENCE FOR MACHINE LEARNING AND METHOD FOR GENERATING A SIMILAR SENTENCE USING THEREOF}

본 개시는 기계 학습을 위해, 기초문장과 유사한 유사 문장을 생성하는 시스템 및 방법에 관한 것이다.

음성 기반 인공지능 서비스가 대중화됨에 따라, 기계와의 대화를 통해 원하는 질문에 대한 답을 얻거나, 원하는 명령을 원격 실행할 수 있는 시스템들이 널리 구축되고 있다. 일 예로, QA 시스템은 인공지능을 위한 대화 서비스는 특정 주제에 대한 질문이 입력되면, 해당 질문에 대한 자연어를 처리하고, 해당 질문에 대한 대답을 검색하고, 검색 결과를 기초로 응답 데이터를 생성하고, 생성된 응답 데이터를 음성합성하여 출력하는 과정을 통해 이루어질 수 있다.

인공지능 대화 서비스의 품질을 향상시키기 위해, 음성 인식률이 제고되어야 한다. 또한, 인공지는 대화 서비스의 품질을 향상시키기 위해, 동일한 의미를 갖는 다양한 형태의 문장들의 학습도 필요하다. 이에 대한 일환으로, 특정 문장에 대한 다양한 유사 문장을 생성하고, 생성된 유사 문장을 기계에 학습시키는 방안이 고려될 수 있다.

다만, 개인에 의해 인위적으로, 특정 문장에 대한 유사 문장을 생성하는 것은, 양적 및 질적 측면에 한계가 있다. 또한, AI 서비스를 이용하고자 하는 발화자의 언어 능력이나, 언어 특성 등을 고려하지 않는 경우, 특정 집단에 대해서는 유의미하게 AI 서비스를 이용할 수 없는 문제점이 있다.

본 개시의 기술적 과제는, 기초 문장과 유사한 유사 문장을 생성하는 시스템 및 방법을 제공하는 것이다.

본 개시의 기술적 과제는, 발화자의 특성을 고려하여, 기초 문장에 유사한 유사 문장을 생성하는 시스템 및 방법을 제공하는 것이다.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법은, 기초 문장에 포함된 단어와 유사한 단어를 이용하여, 제1 유사 문장을 생성하고, 발화 특성에 기초하여, 상기 기초 문장 또는 상기 제1 유사 문장에 대한 제2 유사 문장을 생성하고, 상기 제1 유사 문장 및 상기 제2 유사 문장에 대한 유효성을 검증할 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 발화 특성은, 발화자의 특징 정보에 기초하여 선택되고, 상기 특징 정보는, 상기 발화자의 연령, 성별 또는 지역 중 적어도 하나와 관련된 것일 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 발화 특성이 복수개 선택된 경우, 상기 복수의 발화 특성 중 둘 이상을 조합한 조합된 발화 특성을 이용하여, 제2 유사 문장이 생성될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 발화 특성이 복수개 선택된 경우, 상기 복수개 발화 특성 간 우선순위에 기초하여, 순차적으로 적어도 하나 이상의 제2 유사 문장이 생성될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 제2 유사 문장은, 상기 기초 문장 또는 상기 제1 유사 문장의 시작, 끝 또는 어절 사이에 간투사를 삽입함으로써 생성될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 제2 유사 문장은 상기 기초 문장 또는 상기 제1 유사 문장에 포함된 단어 또는 어절을 반복함으로써 생성될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 제1 유사 문장 및 상기 제2 유사 문장의 유효성을 검증하는 것은, 상기 제1 유사 문장이 상기 기초 문장과 동일한지 여부 또는 상기 제2 유사 문장이 상기 기초 문장 또는 상기 제1 유사 문장과 동일한지 여부를 기초로 수행될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 제1 유사 문장 및 상기 제2 유사 문장의 유효성을 검증하는 것은, N그램 단어 분석을 통해 상기 제1 유사 문장 및 상기 제2 유사 문장이 비정상 문장인지 여부를 판단함으로써 수행될 수 있다.

본 개시의 일 양상에 따른 학습 문장 생성 시스템 및 유사 문장 생성 방법에 있어서, 상기 N은 발화자의 특징 정보에 따라 가변적으로 결정될 수 있다.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.

본 개시에 따르면, 기초 문장과 유사한 유사 문장을 생성하는 시스템 및 방법을 제공할 수 있는 효과가 있다.

본 개시에 따르면, 발화자의 특성을 고려하여, 기초 문장에 유사한 유사 문장을 생성하는 시스템 및 방법을 제공할 수 있는 효과가 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일실시예에 따른 학습 문장 생성 시스템을 도시한 도면이다.
도 2는 본 발명에 따른, 학습 문장 생성 방법의 과정을 나타낸 흐름도이다.
도 3은 문장 필터링 과정을 나타낸 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.

본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 발명의 어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급 또는 표현된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들은, 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 일 예로, 각 구성부들은, 데이터 통신을 수행하기 위한 통신부, 데이터를 저장하는 메모리, 데이터 처리를 수행하는 제어부(또는 프로세서) 중 적어도 하나 이상의 조합으로 구현될 수 있다.

또는, 본 실시예에 나타난 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어져야 하는 것은 아니다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함될 수 있다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

본 발명의 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일실시예에 따른 학습 문장 생성 시스템을 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른, 학습 문장 생성 시스템은, 기초 문장 생성부(110), 발화 특성 선택부(120), 유사 문장 생성부(130) 및 문장 필터링부(140)를 포함할 수 있다.

기초 문장 생성부(110)는 기계 학습을 위해 기계가 학습하고자 하는 분야 또는 주제 등에 적합한 기초 문장을 생성한다. 기초 문장은, 특정 분야 또는 주제와 관련된 코퍼스(corpus)에 기초하여 생성되거나, 웹 데이터 또는 기계 독해(MRC) 등을 통해 수집된 데이터, 또는 외부에서 입력된 데이터 등에 의해 생성될 수 있다. 여기서, 코퍼스(corpus)는, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 수집한 언어 자료를 의미한다. 개발자 또는 관리자 등에 의해 인위적으로 제작된 코퍼스(corpus) 또는 기 생성된 코퍼스에 기초하여, 컴퓨터가 읽을 수 있는 형태의 기초 문장이 생성될 수 있다.

발화 특성 선택부(120)는, 발화자의 특징 정보를 입력받고, 입력된 특징 정보에 대응하는 발화 특성을 선택한다. 발화 특성은 발화자의 언어 습관과 관련된 것으로, 발화 특성 선택부(120)에서 선택된 발화 특성에 기초하여 유사한 유사 문장을 생성하기 위한 규칙이 정의될 수 있다. 여기서, 발화자는, 인공지능 서비스를 이용하고자 하는 대상을 의미하는 것일 수 있다. 일 예로, 본 학습 문장 생성 시스템에 의해 생성된 문장들이 노년층을 타겟으로 한 인공지능을 훈련하기 위한 것이라면, 발화자의 특징 정보는 노년층에 맞게 설정되어야 한다.

발화 특성 선택부(120)는 입력된 특징 정보에 따라, 선택 가능한 발화 특성 후보들 중 적어도 하나 이상을 선택할 수 있다. 이때, 발화 특성 선택부(120)가 선택하는 발화 특성의 종류 또는 개수는 입력된 특징 정보에 따라 상이하게 결정될 수 있다.

유사 문장 생성부(130)는 기초 문장과 유사한 유사 문장을 생성한다. 유사 문장 생성부(130)는 유의어를 이용하여 유사 문장을 생성하는 유의어 활용부(132) 또는 발화 특성을 이용하여 유사 문장을 생성하는 발화 특성 활용부(134) 중 적어도 하나를 포함할 수 있다.

일 예로, 유의어 활용부(132)는, 워드 임베딩(Word Embedding) 또는 패러프라이즈(Paraphrase)을 통해 기초 문장에 포함된 단어와 유사도가 일정 수준 이상인 단어를 획득하고, 획득된 단어를 이용하여 기초 문장과 유사한 유사 문장을 생성할 수 있다. 구체적으로, 유의어 활용부(132)는 기초 문장에 포함된 단어 또는 명사를 동의어나 유의어 등으로 대체함으로써, 기초 문장과 유사한 유사 문장을 생성할 수 있다.

일 예로, 발화 특성 활용부(134)는 발화 특성 선택부(120)로부터 입력된 발화 특성에 기초하여, 기초 문장과 유사한 유사 문장을 생성할 수 있다. 구체적으로, 발화 특성 활용부(134)는 발화 특성에 따라, 동어 반복 또는 간투사 삽입 등의 규칙에 근거하여, 기초 문장과 유사한 유사 문장을 생성할 수 있다.

유사 문장의 생성은 단계적으로 수행될 수 있다. 일 예로, 유의어 활용부(132)에서, 기초 문장과 유사한 유사 문장을 생성하면, 발화 특성 활용부(134)에서, 기초 문장 및 유의어 활용부(132)에서 생성한 유사 문장에 대한 유사 문장을 생성할 수 있다.

이와 반대로, 발화 특성 활용부(134)에서, 기초 문장과 유사한 유사 문장을 생성하면, 유의어 활용부(132)에서, 기초 문장 및 발화 특성 활용부(134)에서 생성한 유사 문장에 대한 유사 문장을 생성할 수 있다.

또는, 유의어 활용부(132) 및 발화 특성 활용부(134) 중 어느 하나만이 유사 문장을 생성하는데 이용될 수도 있다.

문장 필터링부(140)는, 유사 문장 생성부(130)를 통해 생성된 생성된 유사 문장의 유효성을 검증한다. 구체적으로, 문장 필터링부(140)는, 기초 문장과 동일한 유사 문장 또는 기 생성된 유사 문장과 동일한 유사 문장을 제거하거나, N그램 단어 분석을 통해 비정상 유사 문장을 제거할 수 있다.

이하, 도면을 참조하여, 문장 학습 시스템의 동작에 대해 보다 상세히 살펴보기로 한다.

도 2는 본 발명에 따른, 문장 학습 방법의 과정을 나타낸 흐름도이다. 설명의 편의를 위해, 일련의 순서에 따라 문장 학습 방법을 설명할 것이나, 도시된 것과 다른 순서로 문장 학습 방법이 실시될 수도 있다.

또한, 유사 문장 생성부(130)는 단계적으로 유사 문장을 생성하는 것으로 가정한다. 구체적으로, 유의어 활용부(132)에서 1차적으로 유사 문장을 생성하고, 기초 문장 및 1차적으로 생성된 문장을 기초로, 발화 특성 활용부(134)에서 2차적으로 유사 문장을 생성하는 것으로 가정한다.

먼저, 기초 문장 생성부(110)는 기계 학습을 위한 기초 문장을 생성할 수 있다(S210). 기초 문장은 외부에서 입력된 데이터에 기초하여 생성되거나, 웹 데이터 또는 기계 독해 등을 통해 수집된 데이터에 기초하여 생성될 수 있다. 또는, 특정 분야 또는 주제와 관련된 코퍼스에 기초하여 생성될 수도 있다.

발화 특성 선택부(120)로 발화자의 특징 정보가 입력되면, 발화 특성 선택부(120)는 입력된 특징 정보에 기초하여, 발화 특성을 선택할 수 있다(S220). 여기서, 발화자의 특징 정보는, 언어 습관 또는 언어 능력에 영향을 미칠 수 있는 자연적, 지역적, 사회적 특성과 관련된 것으로, 발화자의 연령, 지역, 성별 또는 직업 중 적어도 하나를 포함할 수 있다.

발화 특성 선택부(120)는 입력된 특징 정보에 대응하는, 발화 특성을 선택할 수 있다. 여기서, 발화 특성은, 유사 문장 생성 시 특정 지역 또는 특정 연령 등 특정 집단의 언어 특성을 반영하기 위한 요소로 이용될 수 있다. 발화 특성은, 반복, 간투사, 조사, 미완성/수정, 지연 또는 도치 등의 규칙을 포함할 수 있다. 입력된 특징 정보에 따라, 복수의 발화 특성이 선택될 수도 있다.

유사 문장 생성부(130)는 입력된 기초 문장에 대한 유사 문장을 생성할 수 있다. 먼저, 유의어 활용부(132)는 유의어를 이용하여, 기초 문장과 유사한 유사 문장을 생성할 수 있다(S230).

발화 특성 활용부(134)는 발화 특성에 기초하여, 기초 문장 및 유의어 활용부(132)에서 생성된 유사 문장에 대한 유사 문장을 생성할 수 있다(S240). 구체적으로, 발화 특성 활용부(134)는 발화 특성에 의해 정의된 규칙에 기초하여, 유사 문장을 생성할 수 있다.

일 예로, 발화 특성 중 반복이 선택된 경우, 발화 특성 활용부(134)는, 문장에 포함된 단어 또는 어절 등을 반복하여 유사 문장을 생성할 수 있다. 또는, 발화 특성 중 간투사가 선택된 경우, 발화 특성 활용부(134)는 문장이 시작, 끝 또는 어절 사이 간투사를 삽입함으로써 유사 문장을 생성할 수 있다. 발화 특성 중 조사가 선택된 경우, 발화 특성 활용부(134)는 문장에 조사를 추가하거나, 문장에 포함된 조사를 생략함으로써 유사 문장을 생성할 수 있다. 발화 특성 중 미완성/수정이 선택된 경우, 발화 특성 활용부(134)는 문장에 포함된 목적어 또는 서술어 등을 생략 또는 비문으로 수정함으로써, 유사 문장을 생성할 수 있다. 발화 특성 중 지연이 선택된 경우, 발화 특성 활용부(134)는 문장에 포함된 단어를 늘어뜨림으로써 유사 문장을 생성할 수 있다. 발화 특성 중 도치가 선택된 경우, 발화 특성 활용부(134)는 문장이 어순을 도치함으로써 유사 문장을 생성할 수 있다.

발화자의 특징 정보에 따라, 적어도 하나 이상의 발화 특성이 선택될 수 있다. 일 예로, 발화자의 특징 정보가 발화자의 연령대가 노년층임을 나타내는 경우, 노년층의 언어 습관을 고려하여, 간투사, 미완성/수정, 생략 및 도치 등 복수의 발화 특성이 선택될 수 있다. 복수의 발화 특성이 선택된 경우, 발화 특성 활용부(134)는 복수의 발화 특성 각각을 개별적으로 적용하여 유사 문장을 생성할 수도 있고, 둘 이상의 발화 특성을 조합하여 유사 문장을 생성할 수도 있다.

표 1 및 표 2는 발화 특성에 따라 유사 문장이 생성되는 예를 나타낸다. 표 1 및 표 2의 예에서, 기본 문장은, 4개의 어절로 구성된 '내일 점심으로 뭘 먹지' 인 것으로 가정하였다.

비유형적 발화 특성 (단일)		유사 문장 예시
간투사	간투사 삽입	음 내일 점심으로 뭘 먹지
조사	조사 생략	내일 점심 뭘 먹지
조사	조사 추가	내일은 점심으로 뭘 먹지
미완성/ 수정	미완성	내일 점심으로 뭐
미완성/ 수정	수정	내일 점심으로 뭐 먹지
반복	반복1	내일 점심 내일 점심으로 뭘 먹지
반복	반복2	내일 내일 점심으로 뭘 먹지
어순	어순 교체	뭘 먹지 내일 점심으로

표 1에서 간투사 삽입 규칙은, 문장의 처음, 문장의 끝 또는 어절 사이에 간투사를 삽입하여 유사 문장을 생성하는 것을 나타낸다. 조사 생략 규칙은 문장에 포함된 조사를 생략하여 유사 문장을 생성하는 것을 나타내고, 조사 추가 규칙은 문장에 새로운 조사를 삽입하여 유사 문장을 생성하는 것을 나타낸다. 미완성 규칙은 주어, 목적어 또는 서술어 등을 생략하여 유사 문장을 생성하는 것을 나타낸다. 수정 규칙은 문장에 포함된 단어 또는 어절 등을 약어 또는 기본형 등으로 대체하여 유사 문장을 생성하는 것을 나타낸다. 반복 1 규칙은, 다음 절, 낱말, 구 또는 어절을 반복하여 유사 문장을 생성하는 것을 나타내고, 반복 2 규칙은 낱말보다 작은 단위(예컨대, 음소, 음절 부분, 음절, 낱말 부분, 1음절 낱말 등)를 반목하여 유사 문장을 생성하는 것을 나타낸다. 어순 교체 규칙은, 어순을 도치함으로써 유사 문장을 생성하는 규칙을 나타낸다.

표 2는 복수의 발화 특성을 조합하여 유사 문장을 생성하는 예를 나타낸다.

비유형적 발화 특성 (복수)	예시
간투사-수정	내일 점심으로 음 무얼 먹지
간투사-반복	내일 점심 점심으로 음 뭘 먹지
수정-반복	내일은 점심 점심으로 뭘 먹지

복수의 발화 특성 간에는 우선 순위가 설정될 수 있다. 발화 특성 간 우선 순위는 기 설정되어 있을 수도 있고, 발화자의 특징 정보에 따라 적응적으로 결정될 수도 있다.

또한, 유사 문장 생성부(130)에서 생성되는 유사 문장의 개수는 기 정의된 개수 내로 제한될 수 있다. 발화 특성 생성부(134)는 발화 특성 간 우선순위에 기초하여, 기 정의된 개수 범위 내에서, 순차적으로 유사 문장을 생성할 수 있다.

간투사 또는 조사는 기 정의된 간투사 사전 또는 조사 사전 등을 기초로 선정될 수 있다. 일 예로, 표 3은 간투사 및 조사 사전의 예를 나타낸 것이다.

간투사	환정감탄사: 아, 오, 야, 아이고, 아뿔사, 이키, 흥, 영차 애게, 앗아라 등	감동감탄사: 아, 오, 야 등
		의지감탄사: 영차, 에비, 앗아라 등
	호응감탄사: 예, 여보셔요, 뭐, 구구, 글쎄, 왜, 아니 등
조사	이/가, 의, 에, 에게, 을/를, 으로/로, 와/과, 아/야

또는, 발화자의 특징 정보에 따라 간투사 또는 조사 등을 상이하게 적용할 수도 있다. 예컨대, 발화자의 연령 또는 지역에 따라 간투사의 종류를 적응적으로 선택할 수 있다.

문장 필터링부(130)는 유사 문장에 대한 필터링을 수행할 수 있다(S250). 구체적으로, 문장 필터링부(130)는, 문장 학습부(120)에서 출력된 유사 문장 중 중복 문장, N그램 분석에 기초한 비정상 문장 등을 제거할 수 있다.

도 3은 문장 필터링 과정을 나타낸 흐름도이다.

도 3을 참조하면, 먼저, 유사 문장들 중에서 중복 문장이 제거될 수 있다(S310). 여기서, 중복 문장은, 기초 문장과 동일한 문장 또는 기 생성된 유사 문장과 동일한 문장 등을 의미할 수 있다.

중복 문장이 제거되면, 문장 필터링부는, 유사 문장에 대해 N그램 단어 분석을 수행하고(S320), N그램 단어 분석 결과에 기초하여 비정상 문장을 제거할 수 있다(S330). 여기서, N그램 단어 분석은, 유사 문장 내 연속된 N개의 단어에 대한 문법을 검증함으로써 수행될 수 있다. 일 예로, 비정상 문법으로 판정된 연속된 N개의 단어를 포함하는 유사 문장은 비정상 문장인 것으로 판단될 수 있다.

문법 검증은, N그램 단어 데이터베이스를 이용하여 수행될 수 있다. N그램 단어 데이터 베이스는 수 억개의 어절이 포함된 수집 문장을 이용하여, 빈도 및 중요도에 따라 구축된 것일 수 있다. 일 예로, 유사 문장에 포함된 N개의 연속된 단어가 N그램 단어 데이터베이스에 존재하는지 여부 또는, 유사 문장에 포함된 N개의 연속된 단어의 연쇄 발생 확률이 기 설정된 한계값 이상인지 여부 등에 기초하여, 문법 검증이 수행될 수 있다.

N은 2 이상의 자연수로, N그램은, 바이그램(Bigram), 트라이그램(Trigram) 또는 쿼드그램(Quadtram) 등을 의미할 수 있다. 바람직하게는, N그램은 트라이그램일 수 있다.

또는, 언어 유창성이 떨어지는 집단(예컨대, 노년층)에서는, 실제 생활시 다른 집단에 비해 비문을 더 많이 사용할 것이다. 이에 따라, N그램 분석시, 발화자의 특징 정보에 기초하여, N을 적응적으로 결정할 수도 있다. 예컨대, 노년층에 대한 N값은 청년층에 대한 N값에 비해 작은 값을 가질 수 있다.

개발자 또는 관리자 등에 의해 인위적으로 비정상 문장이 제거될 수도 있다. 개발자 또는 관리자 등에 의해 인위적으로 비정상 문장을 제거함으로써, 생성된 유사 문장의 신뢰성을 높일 수 있다.

문장 필터링을 거쳐 최종 출력되는 문장들은 기계 학습을 위한 참조 문장들로 이용될 수 있다. 일 예로, 참조 문장들에 대한 음성 인식을 통해 기계 학습이 진행되고 이에 따라, AI 장치의 음성 인식률이 높아질 수 있다.

도 2 및 도 3을 통해 설명한 흐름도에 나타난 단계들 모두가 본 발명의 실시에 필수적인 것은 아니어서, 일부가 생략된 채 본 발명이 수행될 수 있다. 일 예로, 도 2에서는, 발화자의 특징 정보에 기초하여, 발화 특성이 선택되는 것으로 도시되었으나, 학습 문장 생성 시스템은, 발화자의 특징 정보를 고려하지 않고, 기 정의된 발화 특성을 이용하여, 유사 문장을 생성할 수도 있다.

또한, 도 2 및 도 3에 도시된 것과 다른 순서로, 본 발명이 실시될 수도 있다.

또한, 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법은, 서두에 언급한 바와 같이, 하드웨어, 소프트웨어 또는 이들의 조합에 의해 구현될 수 있다. 또한, 학습 문장 생성 시스템은, 컴퓨팅 디바이스 등의 기계 장치에 기초하여 구현될 수도 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

110 : 기초 문장 생성부
120 : 발화 특성 선택부
130 : 유사 문장 생성부
140 : 문장 필터링부

Claims

기초 문장에 포함된 단어와 유사한 단어를 이용하여, 제1 유사 문장을 생성하는 단계;
발화 특성에 기초하여, 상기 기초 문장 또는 상기 제1 유사 문장에 대한 제2 유사 문장을 생성하는 단계; 및
상기 제1 유사 문장 및 상기 제2 유사 문장에 대한 유효성을 검증하는 단계를 포함하되,
발화자의 특징 정보에 기초하여 상기 발화 특성이 한 개 이상 선택되고, 상기 발화 특성이 복수개 선택되는 경우 복수의 발화 특성 중 둘 이상을 조합한 발화 특성들을 적용하여 상기 제2 유사 문장을 생성하되, 상기 둘 이상의 발화 특성들 간의 우선순위를 고려하여 적용하여 상기 제2 유사 문장을 생성하고,
상기 기초 문장은 코퍼스(corpus)에 기초하여 생성되거나 웹 데이터 또는 기계 독해(MRC, Machine Reading Comprehension)에 기초하여 수집된 데이터로부터 생성되는 것을 특징으로 하는 유사 문장 생성 방법.
제1 항에 있어서,
상기 특징 정보는, 상기 발화자의 연령, 성별, 지역 및 직업 중 적어도 하나 이상의 정보와 관련된 것을 특징으로 하는, 유사 문장 생성 방법.
삭제
제1 항에 있어서,
상기 발화 특성이 복수개 선택된 경우,
상기 우선순위를 고려하여, 상기 둘 이상의 발화 특성들이 순차적으로 적용된 적어도 하나 이상의 제2 유사 문장이 생성되는 것을 특징으로 하는, 유사 문장 생성 방법.
제1 항에 있어서,
상기 제2 유사 문장은, 상기 기초 문장 또는 상기 제1 유사 문장의 시작, 끝 또는 어절 사이에 간투사를 삽입함으로써 생성되는 것을 특징으로 하는, 유사 문장 생성 방법.
제1 항에 있어서,
상기 제2 유사 문장은 상기 기초 문장 또는 상기 제1 유사 문장에 포함된 단어 또는 어절을 반복함으로써 생성되는 것을 특징으로 하는, 유사 문장 생성 방법.
제1 항에 있어서,
상기 제1 유사 문장 및 상기 제2 유사 문장의 유효성을 검증하는 단계는,
상기 제1 유사 문장이 상기 기초 문장과 동일한지 여부 또는 상기 제2 유사 문장이 상기 기초 문장 또는 상기 제1 유사 문장과 동일한지 여부를 기초로 수행되는 것을 특징으로 하는, 유사 문장 생성 방법.
제1 항에 있어서,
상기 제1 유사 문장 및 상기 제2 유사 문장의 유효성을 검증하는 단계는,
N그램 단어 분석을 통해 상기 제1 유사 문장 및 상기 제2 유사 문장이 비정상 문장인지 여부를 판단함으로써 수행되는 것을 특징으로 하는, 유사 문장 생성 방법.
제8 항에 있어서,
상기 N은 발화자의 특징 정보에 따라 가변적으로 결정되는 것을 특징으로 하는, 유사 문장 생성 방법.
기초 문장에 포함된 단어와 유사한 단어를 이용하여, 제1 유사 문장을 생성하는 제1 유사 문장 생성부;
발화 특성에 기초하여, 상기 기초 문장 또는 상기 제1 유사 문장에 대한 제2 유사 문장을 생성하는 제2 유사 문장 생성부;
상기 제1 유사 문장 및 상기 제2 유사 문장에 대한 유효성을 검증하는 문장 필터링부; 및
발화 특성 선택부; 를 포함하되,
상기 발화 특성 선택부
는 발화자의 특징 정보에 기초하여 상기 발화 특성을 한 개 이상 선택하고, 상기 발화 특성이 복수개 선택되는 경우 복수의 발화 특성 중 둘 이상을 조합한 발화 특성들을 적용하여 상기 제2 유사 문장을 생성하되, 상기 둘 이상의 발화 특성들 간의 우선순위를 고려하여 적용하여 상기 제2 유사 문장을 생성하고,
상기 기초 문장은 코퍼스(corpus)에 기초하여 생성되거나 웹 데이터 또는 기계 독해(MRC, Machine Reading Comprehension)에 기초하여 수집된 데이터로부터 생성되는 것을 특징으로 하는 학습 문장 생성 시스템.
제10 항에 있어서,
상기 특징 정보는, 상기 발화자의 연령, 성별, 지역 및 직업 중 적어도 하나 이상의 정보와 관련된 것을 특징으로 하는, 학습 문장 생성 시스템.
삭제
제10 항에 있어서,
상기 발화 특성이 복수개 선택된 경우,
상기 제2 유사 문장 생성부는,
상기 우선순위를 고려하여, 상기 둘 이상의 발화 특성들이 순차적으로 적용된 적어도 하나 이상의 제2 유사 문장을 생성하는 것을 특징으로 하는, 학습 문장 생성 시스템.
제10 항에 있어서,
상기 제2 유사 문장은, 상기 기초 문장 또는 상기 제1 유사 문장의 시작, 끝 또는 어절 사이에 간투사를 삽입함으로써 생성되는 것을 특징으로 하는, 학습 문장 생성 시스템.
제10 항에 있어서,
상기 제2 유사 문장은 상기 기초 문장 또는 상기 제1 유사 문장에 포함된 단어 또는 어절을 반복함으로써 생성되는 것을 특징으로 하는, 학습 문장 생성 시스템.
제10 항에 있어서,
상기 문장 필터링부는, 상기 제1 유사 문장이 상기 기초 문장과 동일한지 여부 또는 상기 제2 유사 문장이 상기 기초 문장 또는 상기 제1 유사 문장과 동일한지 여부를 기초로 유효성을 검증하는 것을 특징으로 하는, 학습 문장 생성 시스템.
제10 항에 있어서,
상기 문장 필터링부는, N그램 단어 분석을 통해 상기 제1 유사 문장 및 상기 제2 유사 문장이 비정상 문장인지 여부를 판단하는 것을 특징으로 하는, 학습 문장 생성 시스템.
제17 항에 있어서,
상기 N은 발화자의 특징 정보에 따라 가변적으로 결정되는 것을 특징으로 하는, 학습 문장 생성 시스템.