KR101763329B1 - 음절 다중 조합 키워드 기반 문형 자동 분류 방법 - Google Patents
음절 다중 조합 키워드 기반 문형 자동 분류 방법 Download PDFInfo
- Publication number
- KR101763329B1 KR101763329B1 KR1020150027285A KR20150027285A KR101763329B1 KR 101763329 B1 KR101763329 B1 KR 101763329B1 KR 1020150027285 A KR1020150027285 A KR 1020150027285A KR 20150027285 A KR20150027285 A KR 20150027285A KR 101763329 B1 KR101763329 B1 KR 101763329B1
- Authority
- KR
- South Korea
- Prior art keywords
- syllable
- sentence
- keyword
- syllables
- predetermined
- Prior art date
Links
Images
Classifications
-
- G06F17/2705—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G06F17/274—
-
- G06F17/289—
-
- G06F17/30964—
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 서로 다른 언어를 사용하는 사람들 간의 의사소통을 위한 자동통역 과정에서, 음성인식 및 자동번역 텍스트를 분석하여 텍스트를 구성하는 모든 음절의 다중조합을 기반으로 단문이나 복합의미를 갖는 장문의 문형을 자동분류하고 문형부호를 부가하는 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 관한 것으로, 상기 방법은, 복수의 학습 코퍼스를 대상으로 학습 코퍼스 별로 문형 별 키워드 후보를 추출하는 단계; 추출된 각각의 키워드 후보의 상대 빈도율을 계산하는 단계; 상기 계산된 상대 빈도율과 기 설정된 임계값을 비교하여 그 결과에 따라 문형별 키워드로 선별하는 단계; 기 설정된 기준 음절수에 따라 입력되는 문장에 대한 각각의 음절을 다중조합하는 단계 ; 및 상기 조합된 음절과 상기 선별한 문형별 키워드를 비교하여 해당 문장의 문형을 분류하고 분류된 문형에 따른 문형 부호를 부가하는 단계를 포함한다.
Description
본 발명은 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 관한 것으로서, 특히 서로 다른 언어를 사용하는 사람들간의 의사소통을 위한 자동통역 과정에서, 음성인식 및 자동번역 텍스트를 분석하여 그 문형을 구분하는 방법의 일환으로, 텍스트를 구성하는 모든 음절의 다중조합을 기반으로 단문이나 복합의미를 갖는 장문의 문형을 자동분류하고 문형부호를 부가하는 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 관한 것이다.
일반적으로, 음성인식 기술은 사람이 발성한 음성신호를 분석하여 텍스트로 변환하는 기술이다. 그런데 문형부호 예를 들면, 물음표(?)와 마침표(.)는 음가를 가지고 있지 않기 때문에 음성인식에 의해서는 생성하기가 쉽지 않다.
그러나 문형부호는 문장의 의미 파악에 중요할 뿐 아니라, 특히 자동번역 과정에서는 매우 중요한 의미분석의 요소가 되므로 문형부호를 반드시 생성하여 부가할 필요성이 절실하다.
그동안 문형을 분석하기 위하여, 음성의 피치정보를 활용하는 사례가 있으나 성공적이지 못할 뿐만 아니라, 계산량의 과다로 인하여 활성화되고 있지 않은 상황이다.
또한 텍스트의 일부 음절을 키워드로 하여 문형을 분류하는 방법으로는, 긴 문장이나 의문형과 평서형 의미 등 복합적인 의미를 갖는 문장의 경우에는 한계가 있다.
특히, 문장을 구성하는 음절의 수가 적은 단문의 경우에는 문장의 끝 부분의 일부 음절 또는 문장의 첫 부분의 일부 음절을 키워드로 하여 문형의 단서를 추출하고 있으나, 문장이 길어지고 복합적인 의미를 갖는 문장의 경우에는 문형의 단서를 이루는 음절들이 분산됨으로 인하여, 일부분의 단일 키워드만으로는 문형을 판단하기가 어렵게 된다.
따라서, 본 발명은 상기한 종래 기술에 따른 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 자동통역 과정에서 문형부호가 없는 음성인식 텍스트 또는 자동번역 텍스트의 문형을 분류하여, 문형부호를 부가하는 작업의 일환으로서, 텍스트를 구성하는 전체의 음절을 대상으로 다중조합하여 키워드를 추출하여 활용함으로써, 단문 이외에도 긴 문장이나 복합적인 의미를 갖는 문장의 경우에도 문형구분의 성능을 향상시키도록 한 음절 다중 조합 키워드 기반 문형 자동 분류 방법을 제공함에 있다.
상기한 목적을 달성하기 위한 본 발명의 일 측면에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법은, 복수의 학습 코퍼스를 대상으로 학습 코퍼스별로 문형 별 키워드 후보를 추출하는 단계; 추출된 각각의 키워드 후보의 상대 빈도율을 계산하는 단계; 상기 계산된 상대 빈도율과 기 설정된 임계값을 비교하여 그 결과에 따라 문형별 키워드로 선별하는 단계; 기 설정된 기준 음절수에 따라 입력되는 문장에 대한 각각의 음절을 다중조합하는 단계 ; 및 상기 조합된 음절과 상기 선별한 문형별 키워드를 비교하여 해당 문장의 문형을 분류하고 분류된 문형에 따른 문형부호를 부가하는 단계를 포함할 수 있다.
상기 계산된 상대 빈도율이 기 설정된 임계값을 초과하는 경우, 의문형 키워드 또는 평서형 키워드로 선별한다.
상기 키워드의 선별은 텍스트를 구성하는 모든 음절을 대상으로 선별한다.
상기 다중 조합하는 단계는, 텍스트 문장 또는 문형 부호가 부가되어 있지않은 음성 인식 텍스트를 대상으로 음절 다중 조합을 수행하는 단계이다.
상기 문형 별 키워드 후보를 추출하는 단계는, 의문형 문장 및 평서형 문장에 대한 각각의 음절을 대상으로 기 설정된 제1 기준 음절 단위 이내인지를 각각 판단하는 단계; 판단 결과, 해당 의문형 및 평서형 문장 각각에 대하여 기 설정된 제1 기준 음절 단위로 각 음절을 조합하는 단계; 상기 조합된 음절 수가 기 설정된 제2 기준 음절 이내인지 판단하는 단계; 판단 결과, 조합된 음절 수가 상기 기 설정된 제2 기준 음절 이내인 경우 의문형 키워드와 평서형 후보로 각각 추출하는 단계를 포함한다.
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절이다.
상기 문형 부호를 부가하는 단계는, 텍스트 문장 또는 음성인식 텍스트가 입력되면, 기 설정된 제1 기준 음절 범위 내에서, 음절을 다중 조합하는 단계; 음절의 다중 조합이 이루어지면, 조합 음절 수가 기 설정된 제2 기준 음절수를 초과하는지 판단하는 단계; 판단 결과, 조합 음절수가 기 설정된 제2 기준 음절수 이내인 경우, 해당 조합된 음절에 의문형 키워드가 포함되는지를 판단하는 단계; 판단 결과, 조합된 모든 음절에 의문형 키워드 존재 여부에 따라 설정된 문형 부호를 부가하는 단계를 포함한다.
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절이다.
상기 의문형 키워드가 포함되는지를 판단하는 단계는, 상기 조합된 모든 음절에 대하여 의문형 키워드가 포함되는지를 판단하는 단계이다.
상기 문형 부호를 부가하는 단계는, 상기 조합된 모든 음절에 대하여 의문형 키워드가 포함된 경우, 의문형으로 분류한 후 문형 기호인 물음표(?)를 부가하고, 의문형 키워드가 포함되지 않은 경우에는 문형 기호인 마침표(.)를 부가하는 단계이다.
상기 계산된 상대 빈도율이 기 설정된 임계값을 초과하는 경우, 의문형 키워드 또는 평서형 키워드로 선별한다.
상기 키워드의 선별은 텍스트를 구성하는 모든 음절을 대상으로 선별한다.
상기 다중 조합하는 단계는, 텍스트 문장 또는 문형 부호가 부가되어 있지않은 음성 인식 텍스트를 대상으로 음절 다중 조합을 수행하는 단계이다.
상기 문형 별 키워드 후보를 추출하는 단계는, 의문형 문장 및 평서형 문장에 대한 각각의 음절을 대상으로 기 설정된 제1 기준 음절 단위 이내인지를 각각 판단하는 단계; 판단 결과, 해당 의문형 및 평서형 문장 각각에 대하여 기 설정된 제1 기준 음절 단위로 각 음절을 조합하는 단계; 상기 조합된 음절 수가 기 설정된 제2 기준 음절 이내인지 판단하는 단계; 판단 결과, 조합된 음절 수가 상기 기 설정된 제2 기준 음절 이내인 경우 의문형 키워드와 평서형 후보로 각각 추출하는 단계를 포함한다.
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절이다.
상기 문형 부호를 부가하는 단계는, 텍스트 문장 또는 음성인식 텍스트가 입력되면, 기 설정된 제1 기준 음절 범위 내에서, 음절을 다중 조합하는 단계; 음절의 다중 조합이 이루어지면, 조합 음절 수가 기 설정된 제2 기준 음절수를 초과하는지 판단하는 단계; 판단 결과, 조합 음절수가 기 설정된 제2 기준 음절수 이내인 경우, 해당 조합된 음절에 의문형 키워드가 포함되는지를 판단하는 단계; 판단 결과, 조합된 모든 음절에 의문형 키워드 존재 여부에 따라 설정된 문형 부호를 부가하는 단계를 포함한다.
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절이다.
상기 의문형 키워드가 포함되는지를 판단하는 단계는, 상기 조합된 모든 음절에 대하여 의문형 키워드가 포함되는지를 판단하는 단계이다.
상기 문형 부호를 부가하는 단계는, 상기 조합된 모든 음절에 대하여 의문형 키워드가 포함된 경우, 의문형으로 분류한 후 문형 기호인 물음표(?)를 부가하고, 의문형 키워드가 포함되지 않은 경우에는 문형 기호인 마침표(.)를 부가하는 단계이다.
본 발명에 따르면, 자동통역 과정에서, 문형부호가 부가되어 있지 않은 음성인식 텍스트로서, 간단한 단문 이외에도 긴 문장이나 복합적인 의미를 갖는 경우에도 의문문 또는 평서문으로 문형을 자동분류하고 문형부호를 부가한 후 자동번역의 입력언어로 활용될 수 있게 하는 효과를 갖는다.
또한, 자동번역 텍스트의 경우에도 동일한 방법으로 문형을 자동분류하고 문형부호를 부가하여 음성합성에서 활용할 수 있도록 하는 효과를 갖는다. 이러한 본 발명의 효과에 대하여 좀 더 구체적으로 살펴보면 다음과 같다.
첫째, 소수의 음절로 구성된 단순한 의미의 단문 이외에도 긴 문장 또는 복합적인 의미를 갖는 문장의 문형을 자동분류하는 효과를 갖는다.
둘째, 하나의 텍스트를 구성하는 모든 음절을 대상으로, 다중조합하는 모델을 제시하여, 음절 다중조합을 자동화할 수 있는 것으로, 음절 다중조합 모델은 다양한 방면에서 여타 분야에서도 그대로 활용할 수 있다.
셋째, 음절 다중조합 과정에서 다중조합 계산량 감소를 위하여, 일정범위(예, 10음절) 단위로 조합할 수 있다.
넷째, 음절 다중조합 대상 범위의 제한과 아울러, 조합되는 음절의 수를 일정범위 (예, 4음절 이하)로 제한할 수 있는 모델을 제시함으로써, 조합의 범위를 다양하게 조절할 수 있다.
도 1은 본 발명에 따른 음절 다중 조합 방법에 대한 동작 플로우챠트를 나타낸 도면.
도 2는 도 1에 의해 다중 조합된 음절의 일 예를 표로 나타낸 도면.
도 3은 본 발명에 따른 음절 다중 조합 기반 문형 구분 키워드 추출 방법에 대한 동작 플로우챠트.
도 4는 본 발명에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 대한 동작 플로우챠트를 나타낸 도면.
도 2는 도 1에 의해 다중 조합된 음절의 일 예를 표로 나타낸 도면.
도 3은 본 발명에 따른 음절 다중 조합 기반 문형 구분 키워드 추출 방법에 대한 동작 플로우챠트.
도 4는 본 발명에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 대한 동작 플로우챠트를 나타낸 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 본 발명에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 대하여 첨부한 도면을 참조하여 상세하게 설명해 보기로 하자.
도 1은 본 발명에 따른 음절 다중 조합 방법에 대한 동작 플로우챠트를 나타낸 도면이고, 도 2는 도 1에 의해 다중 조합된 음절의 일 예를 표로 나타낸 도면이다.
도 1에 도시된 바와 같이, 먼저 임의의 개수의 음절을 가지는 문장이 입력되면(S101), 입력되는 문장의 음절 수(N)가 설정된 기준 음절 수인지를 판단한다(S102). 여기서, 기준 음절수는 4개인 경우를 예로 하여 설명한다.
입력되는 문장의 음절 수에 따라 음절 다중 조합의 순서와 총 개수(T = 1 ~ 2N)를 계산한다(S103).
이어, 상기 S103 단계에서 음절 다중 조합의 순서가 계산되면, 음절 순서(예를 들어, 첫째 음절 A, 둘째 음절 B, 셋째 음절 C, 넷째 음절 D)에 따라, 차례대로 음절 다중 조합 순서(T)에 포함될지 여부에 대한 후보(F)가 된다(S104).
음절 조합 순서가 1부터 진행됨에 따라 이를 대상으로 나누기 위한 나눔수(D = 2N-F)를 계산한다(S105). 여기서, 나눔수는 음절순서가 진행됨에 따라 2의 배수로 감소한다.
이어, 음절조합순서(T)를 나눔수(D)로 나눈 몫(A)과, 상기 몫을 2로 나눈 나머지(MOD)를 구하게 된다(S106, S107).
상기 S107 단계에서, 구해진 나머지(MOD)가 0인지를 판단하고(S108), 판단 결과, 나머지가 0인 경우에, 해당 순번의 음절은 음절 조합에 포함하고(S109), 나머지가 0이 아닌 경우에는 음절 조합에 포함시키지 않는다. 여기서, 음절순서에 따른 음절 조합 결과는 도 2와 같다.
즉, 도 2에 도시된 바와 같이 (1)부분은 문장을 구성하는 음절 (A B C D)이고, 아래의 "O"는 해당 음절이 음절조합에 포함됨을 표시한 것이다.
한편, 도 2에서 (2) 부분은 음절조합 순서를 나타낸 것이고, (3)부분은 음절 다중조합 결과를 보여주는 것이며, (4)부분은 마지막 순번은 음절조합이 없음을 나타낸 것이다.
이어서 음절 순서(F) 중에서 다음 차례의 음절 조합 대상 음절이 남아 있는지 확인하고(S110), 음절 조합 대상 음절이 남아 있는 경우 동일한 음절 조합 순서에서의 과정을 반복한다.
그리고, 음절조합 순서가 더 존재하는지 판단한다(S111).
판단 결과, 음절 조합 순서가 더 존재하는 경우 상기의 과정을 반복적으로 수행하고, 음절 조합이 완료되면 그 동작을 종료하게 된다.
도 3은 문형별 학습 코퍼스를 대상으로 음절 다중조합 키워드를 추출하는 동작에 대한 플로우챠트를 나타낸 도면이다. 여기서, 도 3은 계산량 감소를 위해 제한된 음절수 범위 단위로 산출하는 과정을 반복하는 예를 보여준 것이다.
도 3에 도시된 바와 같이, 먼저, 의문형 문장 코퍼스를 대상으로, 해당 의문형 문장의 음절을 대상으로 10음절 단위 이내인지를 판단한다(S201).
판단 결과, 해당 의문형 문장의 10음절 단위로 도 1에 도시된 방법에 따라 각 음절의 조합을 수행한다(S202).
이어, 조합된 음절 수가 기준 음절(예를 들어, 4 음절) 이내인지를 판단하고(S203), 판단 결과, 조합된 음절 수가 4 음절 이내인 경우 의문형 키워드 후보로 추출한다. 여기서, 4음절을 기준으로 하는 이유는 4음절 이하의 음절 조합에 의하여도 그 문형의 특징이 충분히 반영될 수 있는 것으로 분석되기 때문이다.
이와 같은 방법으로 10 음절에 대한 음절조합이 완료되면, 한 음절을 진행하여 이로부터 10음절 범위 내에서 동일한 절차를 반복하여 의문형 키워드 후보를 추출한다.
한편, 평서형 문장 코퍼스를 대상으로 상기 의문형 문장의 동작과 동일한 절차를 진행한다. 즉, 평서 문장 코퍼스를 대상으로, 해당 평서형 문장의 음절을 10음절 단위 이내인지를 판단한다(S204).
판단 결과, 해당 평서형 문장의 10음절 단위로 도 1에 도시된 방법에 따라 각 음절의 조합을 수행한다(S205).
이어, 조합된 음절 수가 기준 음절(예를 들어, 4 음절) 이내인지를 판단하고(S206), 판단 결과, 조합된 음절 수가 4 음절 이내인 경우 평서형 키워드 후보로 추출한다. 여기서, 4음절을 기준으로 하는 이유는 4음절 이하의 음절 조합에 의하여도 그 문형의 특징이 충분히 반영될 수 있는 것으로 분석되기 때문이다.
이와 같은 방법으로 10 음절에 대한 음절 조합이 완료되면, 한 음절을 진행하여 이로부터 10음절 범위 내에서 동일한 절차를 반복하여 의문형 평서형 키워드 후보를 추출한다.
이어, 의문형 및 평서형 키워드 후보가 추출되면, 추출된 의문형 키워드 후보와 평서형 키워드 후보간의 상대 빈도율을 산출하고, 산출된 상대 빈도율이 임계값을 초과하는지를 판단한다(S207).
판단 결과, 상기 산출된 상대 빈도율이 설정된 임계값을 초과하는 경우에 의문형 키워드 또는 평서형 키워드로 선별하는 것이다(S208, S209). 여기서 상대 빈도율이란 해당 키워드가 의문형에서 출현하는 상대적 빈도율과 평서형에서 출현하는 상대적 빈도율을 상호 비교한 것이며, 의문형에서 출현하는 상대 빈도율이 평서형에서 출현하는 상대 빈도율 보다 임계값(예를 들어, 95%)이상으로 높은 경우에 의문형 키워드로 선별하기 위한 것이다.
한편, 도 3에서, 평서형 키워드를 선별하는 과정을 점선으로 표시한 것은, 실제 문형 구분에서는 의문형 키워드의 포함 여부에 따라 문형을 분류하기 때문에 이를 나타내기 위한 것이다.
도 4는 음절 다중조합에 기반한 의문형 키워드에 의해 실제 문형을 구분하는 절차를 나타낸 동작 플로우챠트이다.
도 4에 도시된 바와 같이, 문형 구분 대상으로, 텍스트 문장 또는 음성인식 텍스트가 입력되면(S301), 도 3에서의 키워드 추출 절차와 마찬가지로, 10 음절 범위 내에서, 음절을 다중 조합한다(S302, S303).
음절의 다중 조합이 이루어지면, 4음절 범위에서 조합되는 음절을 확인하여(S304), 해당 조합된 음절에 의문형 키워드가 포함되는지를 조합된 모든 음절에 대하여 반복적으로 판단한다(S305).
여기서, 문장을 구성하는 모든 음절을 대상으로 다음 음절부터 10음절 범위 내에서 반복하는 과정에서 의문형 키워드를 포함하는 경우, 의문형으로 분류한 후 문형 기호인 물음표(?)를 부가하고(S306), 의문형 키워드가 포함되지 않은 경우에는 평서형으로 분류하여 평서형 문형 기호인 마침표(.)를 부가한다(S307).
상기한 본 발명에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법에 대하여 정리하면, 의문형 학습 코퍼스와 평서형 학습 코퍼스를 대상으로 각각의 학습 코퍼스 별로 의문형 키워드 후보와 평서형 키워드 후보를 추출한다.
그리고, 각각의 키워드 후보의 상대 빈도율을 비교하여 임계값(예, 95%)을 넘으면 의문형 키워드 또는 평서형 키워드로 선별한다. 여기서, 키워드는 텍스트를 구성하는 일부 특정부분이 아니며, 앞서 설명한 바와 같이 텍스트를 구성하는 모든 음절을 대상으로 도 1에 도시된 방법에 따라 다중 조합하여 추출한다.
그리고, 텍스트 문장 또는 문형 부호가 부가되어 있지 않은 음성 인식 텍스트를 대상으로, 음절 다중 조합 절차를 진행하면서, 미리 선별한 문형별 키워드와 동일한 경우가 있으면 해당 문형으로 분류하고 관련 문형 부호를 부가하는 것이다.
한편, 본 발명에 따른 음절 다중 조합 키워드 기반 문형 자동 분류 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (10)
- 복수의 학습 코퍼스를 대상으로 학습 코퍼스별로 문형 별 키워드 후보를 추출하는 단계;
추출된 각각의 키워드 후보의 상대 빈도율을 계산하는 단계;
상기 계산된 상대 빈도율과 기 설정된 임계값을 비교하여 그 결과에 따라 문형별 키워드로 선별하는 단계;
기 설정된 기준 음절수에 따라 입력되는 문장에 대한 각각의 음절을 다중 조합하는 단계 ; 및
상기 다중 조합된 음절과 상기 선별한 문형별 키워드를 비교하여 해당 문장의 문형을 분류하고 분류된 문형에 따른 문형 부호를 부가하는 단계를 포함하고,
상기 문형 부호를 부가하는 단계는,
텍스트 문장 또는 음성인식 텍스트가 입력되면, 기 설정된 제1 기준 음절 범위 내에서, 음절을 다중 조합하는 단계;
음절의 다중 조합이 이루어지면, 조합 음절 수가 기 설정된 제2 기준 음절수를 초과하는지 판단하는 단계;
판단 결과, 조합 음절수가 기 설정된 제2 기준 음절수 이내인 경우, 해당 조합된 음절에 의문형 키워드가 포함되는지를 판단하는 단계;
판단 결과, 조합된 모든 음절에 의문형 키워드 존재 여부에 따라 설정된 문형 부호를 부가하는 단계를 포함하는 것
인 음절 다중 조합 키워드 기반 문형 자동 분류 방법. - 제1항에 있어서,
상기 계산된 상대 빈도율이 기 설정된 임계값을 초과하는 경우, 의문형 키워드 또는 평서형 키워드로 선별하는 것
인 음절 다중 조합 키워드 기반 문형 자동 분류방법.
- 제2항에 있어서,
상기 키워드의 선별은 텍스트를 구성하는 모든 음절을 대상으로 선별하는 것
인 음절 다중 조합 키워드 기반 문형 자동 분류방법.
- 제1항에 있어서,
상기 다중 조합하는 단계는, 텍스트 문장 또는 문형 부호가 부가되어 있지않은 음성 인식 텍스트를 대상으로 음절 다중 조합을 수행하는 단계인
음절 다중 조합 키워드 기반 자동 분류 방법.
- 제1항에 있어서,
상기 문형 별 키워드 후보를 추출하는 단계는,
의문형 문장 및 평서형 문장에 대한 각각의 음절을 대상으로 기 설정된 제1 기준 음절 단위 이내인지를 각각 판단하는 단계;
판단 결과, 해당 의문형 및 평서형 문장 각각에 대하여 기 설정된 제1 기준 음절 단위로 각 음절을 조합하는 단계;
상기 조합된 음절 수가 기 설정된 제2 기준 음절 이내인지 판단하는 단계;
판단 결과, 조합된 음절 수가 상기 기 설정된 제2 기준 음절 이내인 경우 의문형 키워드와 평서형 후보로 각각 추출하는 단계를 포함하는 것
인 음절 다중 조합 키워드 기반 자동 분류 방법.
- 제5항에 있어서,
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절인 것
인 음절 다중 조합 키워드 기반 자동 분류 방법.
- 삭제
- 제1항에 있어서,
상기 기 설정된 제1 기준 음절 단위는 10 음절이고, 기 설정된 제2 기준음절은 음절은 4 음절인 것
인 음절 다중 조합 키워드 기반 자동 분류 방법.
- 제1항에 있어서,
상기 의문형 키워드가 포함되는지를 판단하는 단계는,
상기 조합된 모든 음절에 대하여 의문형 키워드가 포함되는지를 판단하는 단계인 음절 다중 조합 키워드 기반 자동 분류 방법.
- 제9항에 있어서,
상기 문형 부호를 부가하는 단계는,
상기 조합된 모든 음절에 대하여 의문형 키워드가 포함된 경우, 의문형으로 분류한 후 문형 기호인 물음표(?)를 부가하고, 의문형 키워드가 포함되지 않은 경우에는 문형 기호인 마침표(.)를 부가하는 단계인 음절 다중 조합 키워드 기반 자동 분류 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150027285A KR101763329B1 (ko) | 2015-02-26 | 2015-02-26 | 음절 다중 조합 키워드 기반 문형 자동 분류 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150027285A KR101763329B1 (ko) | 2015-02-26 | 2015-02-26 | 음절 다중 조합 키워드 기반 문형 자동 분류 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160104371A KR20160104371A (ko) | 2016-09-05 |
KR101763329B1 true KR101763329B1 (ko) | 2017-08-14 |
Family
ID=56938809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150027285A KR101763329B1 (ko) | 2015-02-26 | 2015-02-26 | 음절 다중 조합 키워드 기반 문형 자동 분류 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101763329B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362827B (zh) * | 2019-07-11 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置及存储介质 |
-
2015
- 2015-02-26 KR KR1020150027285A patent/KR101763329B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20160104371A (ko) | 2016-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peersman et al. | Predicting age and gender in online social networks | |
CN101315622B (zh) | 检测文件相似度的系统及方法 | |
Almeman et al. | Automatic building of arabic multi dialect text corpora by bootstrapping dialect words | |
Hamed et al. | Building a first language model for code-switch Arabic-English | |
CN104298665A (zh) | 一种中文文本中评价对象的识别方法及装置 | |
CN103853703A (zh) | 一种信息处理方法及电子设备 | |
CN102135814A (zh) | 一种字词输入方法及系统 | |
CN103268313A (zh) | 一种自然语言的语义解析方法及装置 | |
CN104317965A (zh) | 基于语料的情感词典构建方法 | |
CN104346326A (zh) | 一种情绪文本的情绪特征确定方法及装置 | |
CN103294663B (zh) | 一种文本连贯性检测方法和装置 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
CN105320645A (zh) | 中文企业名称的识别方法 | |
Oramas et al. | ELMD: An automatically generated entity linking gold standard dataset in the music domain | |
Baker | Corpus Linguistics inSociolinguistics | |
Álvarez et al. | Towards customized automatic segmentation of subtitles | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
Ogrodniczuk et al. | End-to-end coreference resolution baseline system for Polish | |
Bhattacharyya et al. | A review on natural language processing in opinion mining | |
KR101763329B1 (ko) | 음절 다중 조합 키워드 기반 문형 자동 분류 방법 | |
CN105528404A (zh) | 种子关键字字典建立方法和装置及关键词提取方法和装置 | |
Ljubešic et al. | Discriminating between very similar languages among twitter users | |
Sang | Finding rising and falling words | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |