KR101944274B1 - 텍스트 기반의 상황 분류 장치 및 방법 - Google Patents
텍스트 기반의 상황 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR101944274B1 KR101944274B1 KR1020160183459A KR20160183459A KR101944274B1 KR 101944274 B1 KR101944274 B1 KR 101944274B1 KR 1020160183459 A KR1020160183459 A KR 1020160183459A KR 20160183459 A KR20160183459 A KR 20160183459A KR 101944274 B1 KR101944274 B1 KR 101944274B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- situation
- feature vector
- unit
- original text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G06F17/2705—
-
- G06F17/2755—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
실시예들은 원본 텍스트 내 소정의 단어가 소정의 식별자로 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 전처리 텍스트 생성부, 상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 형태소 단위 추출부, 데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 특징 벡터 그룹 생성부 및 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 상황 추정부를 포함하는 텍스트 기반의 상황 분류 장치 및 이를 이용하나 상황 분류 방법에 관련된다.
Description
본 발명은 상황 분류 장치 및 방법에 관한 것으로, 더욱 구체적으로는 텍스트 기반의 상황 분류 장치 및 방법에 관련된다. 본 발명은 응급상황 신고전화 텍스트를 기계 학습하여 분류하는 장치 및 방법에 관련될 수 있다.
종래 텍스트 내용을 이해하기 위한 기계학습은 텍스트 전체를 소정의 단위로 나누어 수행되었다. 그러나 유사한 카테고리에 속하는 텍스트들(예컨대 응급신고전화)의 내용을 이해하기 위한 기계학습법에 있어서 위치를 나타내는 단어는 텍스트의 목적(내용)과 무관하여 오류를 발생시키거나 과적합 문제를 야기시켰다.
위와 같은 문제점 해결하기 위해서, 신고전화 텍스트에서 위치를 나타내는 단어를 제외하고 기계학습을 수행함으로써, 기계학습 능력을 향상시킬 수 있는 장치 및 방법이 요구된다.
본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 방법은 상황 분류 장치에 의해 실행되는 텍스트 기반의 상황 분류방법으로서, 상기 방법은, 원본 텍스트 내 소정의 단어가 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 단계, 상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 단계, 데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 단계 및 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 전처리 텍스트를 생성하는 단계는, 상기 소정의 단어를 위치 태그로 변환시키는 단계를 포함하고, 여기서 상기 소정의 단어는 위치를 나타내는 단어일 수 있다.
일 실시예에 있어서, 상기 원본 텍스트는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장을 포함할 수 있다.
일 실시예에 있어서, 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계는, 지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정할 수 있다.
일 실시예에 있어서, 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함할 수 있다.
일 실시예에 있어서, 상기 각 형태소 단위는 명사 또는 동사일 수 있다.
일 실시예에 있어서, 상기 상황은 응급상황을 포함하고, 상기 현재 상황은 화재, 구급, 구조 중 하나 이상을 포함할 수 있다.
본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 장치는 원본 텍스트 내 소정의 단어가 소정의 식별자로 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 전처리 텍스트 생성부, 상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 형태소 단위 추출부, 데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 특징 벡터 그룹 생성부 및 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 상황 추정부를 포함할 수 있다.
일 실시예에 있어서, 상기 전처리 텍스트 생성부는, 상기 소정의 단어를 위치 태그로 변환시키고, 여기서, 상기 소정의 단어는 위치를 나타내는 단어일 수 있다.
일 실시예에 있어서, 상기 원본 텍스트는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장을 포함할 수 있다.
일 실시예에 있어서, 상기 상황 추정부는, 지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정할 수 있다.
일 실시예에 있어서, 상기 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함할 수 있다.
일 실시예에 있어서, 상기 각 형태소 단위는 명사 또는 동사일 수 있다.
일 실시예에 있어서, 상기 상황은 응급상황을 포함하고, 상기 현재 상황은 화재, 구급, 구조 중 하나 이상을 포함할 수 있다.
본 발명의 일 실시예에 따른 컴퓨터로 판독 가능한 기록매체는 상기 방법을 실행하기 위한 명령이 저장될 수 있다.
본 발명의 일 실시예에 따르면, 응급신고 전화의 텍스트 처리에 있어서, 주소 정보를 치환함으로써 기계학습 과정에서 과적합 문제를 방지할 수 있다. 그 결과 기계학습 정확도 및 속도가 향상될 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따라 텍스트 기반의 상황 분류 장치(100)가 예시적인 원본 텍스트가 나타내는 상황을 추정하는 단계를 나타낸다.
도 3은 형태소 단위에 대하여 매핑코드가 지정되는 과정을 설명하기 위한 도이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 방법의 순서도이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 추정 장치 또는 방법을 이용한 결과를 나타낸다.
도 2는 본 발명의 일 실시예에 따라 텍스트 기반의 상황 분류 장치(100)가 예시적인 원본 텍스트가 나타내는 상황을 추정하는 단계를 나타낸다.
도 3은 형태소 단위에 대하여 매핑코드가 지정되는 과정을 설명하기 위한 도이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 방법의 순서도이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 추정 장치 또는 방법을 이용한 결과를 나타낸다.
본 명세서에 기술된 실시예는 전적으로 하드웨어이거나, 부분적으로 하드웨어이고 부분적으로 소프트웨어이거나, 또는 전적으로 소프트웨어인 측면을 가질 수 있다. 본 명세서에서 "부(unit)", "모듈(module)", "장치" 또는 "시스템" 등은 하드웨어, 하드웨어와 소프트웨어의 조합, 또는 소프트웨어 등 컴퓨터 관련 엔티티(entity)를 지칭한다. 예를 들어, 본 명세서에서 부, 모듈, 장치 또는 시스템 등은 실행중인 프로세스, 프로세서, 객체(object), 실행 파일(executable), 실행 스레드(thread of execution), 프로그램(program), 및/또는 컴퓨터(computer)일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 컴퓨터에서 실행중인 애플리케이션(application) 및 컴퓨터의 양쪽이 모두 본 명세서의 부, 모듈, 장치 또는 시스템 등에 해당할 수 있다.
실시예들이 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다. 나아가, 본 발명의 일 실시예에 따른 방법은 일련의 과정들을 수행하기 위한 컴퓨터 프로그램의 형태로 구현될 수도 있으며, 상기 컴퓨터 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수도 있다.
본 발명은 텍스트를 기초로 다양한 상황을 추정하는 기술에 관련된 것이나 본 명세서에서는 설명의 명확화를 위해서 예시적으로 응급상황에 관련된 상황을 추정하는 경우를 설명한다.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.
도 1은 본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 장치의 블록도이다. 도 1을 참조하면 텍스트 기반의 상황 분류 장치(100)는 전처리 텍스트 생성부(110), 형태소 단위 추출부(120), 특징 벡터 그룹 생성부(130) 및 상황 추정부(140)를 포함한다. 일 실시예에서 텍스트 기반의 상황 분류 장치(100)는 데이터베이스(150, DB)를 더 포함할 수도 있다.
텍스트 기반의 상황 분류 장치(100)는 원본 텍스트를 분석하여 원본 텍스트가 표현하는 상황을 추정할 수 있다. 예컨대 추정될 수 있는 상황으로 화재, 홍수, 산사태 등이 저장되어 있고, 원본 텍스트가 "우리집에 불이 났어요"인 경우 텍스트 기반의 상황 분류 장치(100)는 상기 원본 텍스트의 상황이 '화재'인 것으로 추정할 수 있다. 이하에서는 텍스트 기반의 상황 분류 장치(100)의 구성요소들의 동작에 대하여 설명한다.
도 2는 본 발명의 일 실시예에 따라 텍스트 기반의 상황 분류 장치(100)가 예시적인 원본 텍스트가 나타내는 상황을 추정하는 단계를 나타낸다.
도 2를 참조하면 전처리 텍스트 생성부(110)는 원본 텍스트(10) 내 소정의 단어가 소정의 식별자(21)로 변환되도록 상기 원본 텍스트를 전처리할 수 있다. 설명의 명확화를 위해 본 명세서에서는 그 결과물을 전처리 텍스트(20)라고 언급한다.
여기서 원본 텍스트(10)는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장일 수 있으나 이에 제한되는 것은 아니다.
일 실시예에서 전처리 텍스트 생성부(110)는, 상기 소정의 단어를 위치 태그로 변환시킬 수 있다. 이 때, 상기 소정의 단어는 위치를 나타내는 단어일 수 있다. 도 2를 참조하면 원본 텍스트(10)에서 지리적인 위치를 나타내는 단어인 '의정부'는 위치태그(21)로 변환된다.
하나 이상의 위치를 나타내는 단어가 위치태그(21)로 변환될 수 있다. 예컨대 원본 텍스트에 위치를 나타내는 단어인 '경기도'와'의정부'가 포함되는 경우, 전처리 텍스트 생성부(110)는 '경기도'와'의정부' 모두 동일한 위치태그 '##'로 변환시킬 수 있다. 본 명세서에서는 위치태그가 ##인 것으로 설명되었으나, 위치태그(21)는 문자, 숫자 또는 기호 또는 이들의 조합 등 다양한 형태일 수 있다.
본원발명에 따르면, 위치 정보를 나타내는 단어를 위치태그로 일괄 변경함으로써, 과적합문제의 발생을 방지할 수 있다. 예컨대 데이터수가 적을 경우 위치를 나타내는 단어 '대천'을 기초로 현재 상황이 장마라고 추정할 가능성을 줄일 수 있다. 현재 상황을 판단함에 있어서 위치 정보 부분을 생략함으로써 상황 판단 속도 및 정확도를 증가시킬 수 있다.
구체적으로 응급신고 전화의 특성상 대부분의 신고자는 신고지의 주소를 언급한다. 주소 정보는 신고 전화마다 고유한 값을 갖게 되므로 기계학습 과정에서 과적합 (overfitting) 문제를 야기할 수 있다. 따라서 본 발명에서는 신고자의 주소정보를 공통된 문자 (주소 태그)로 치환함으로써 과적합 문제를 해결할 수 있다.
또한 원본 텍스트 내 단어가 위치를 나타내는 것인지 확인을 위해서 주소를 나타내는 단어 정보가 미리 구축되어 있을 수 있다.
도 2를 참조하면 전처리 텍스트(20)에서 위치를 나타내는 단어 '의정부'는 주소태그 ##(21)로 변환되어 있다.
형태소 단위 추출부(120)는 전처리 텍스트(20)에서 하나 이상의 형태소 단위를 추출할 수 있다. 일 예에서 각 형태소 단위는 명사 또는 동사일 수 있으나 이에 제한되는 것은 아니다.
또한 위 설명에서는 원본 텍스트에 대하여 위치를 나타내는 단어를 위치 태그로 변환하고 형태소를 추출하는 것으로 설명하였으나, 이 순서에 본 발명이 제한되는 것은 아니고 다른 실시예에서는 원본 텍스트에서 형태소 단위를 먼저 추출하고, 추출된 형태소 단위들 중에서 위치를 나타내는 단어를 주소 태그로 변환할 수도 있다.
도 2를 참조하면 추출된 형태소 단위(31-34)가 나타난다. 원본 텍스트(10) 또는 전처리 텍스트(20)에서 '지금', '여기','인데요'와 같은 표현은 상황을 추정하는데 반드시 필요한 요소가 아니므로 제외될 수 있다. 즉, 명사와 동사만이 형태소로 추출될 수 있다. 또한 도 2에 도시된 바와 같이 주소태그(21)도 일 형태소 단위(31)로 추출될 수 있다. 추출된 각 형태소 단위 에 대하여 매핑코드가 지정될 수 있다.
도 3은 형태소 단위에 대하여 매핑코드가 지정되는 과정을 설명하기 위한 도이다. 소정 개수의 신고전화 텍스트에서(151) 빈도수가 높은 상위 N개의 단어를 추출하여 빈도수 별로 숫자를 대응시켜 매핑 테이블(152)을 생성할 수 있다. 설명의 편의를 위해 여기서 N은 3000인 것으로 가정한다.
매핑 테이블(152)에서 매핑코드의 크기는 형태소 단위의 빈도수에 따라서 결정될 수 있다. 또항 매핑 테이블(152)는 데이터베이스(150)에 저장되어 있을 수 있고, 새롭게 입력되는 텍스트(151)에 따라서 주기적 또는 비주기적으로 업데이트될 수 있다.
이러한 작업을 위해서 상술한 바와 같이 소정 개수의 신고 전화 텍스트(151)에 대하여 위치정보를 나타내는 단어를 주소태그로 변환하는 과정 또는 형태소 분류 과정이 수행될 수 있다.
도 2 및 3을 참조하면 '나다'라는 형태소 단위(34)는 신고전화 텍스트(151)에서 빈도수가 4 번째로 높은 형태소 단위인 것으로 나타남을 알 수 있다. 따라서 형태소 단위(31,32,33,34)는 각각 매핑코드 [120, 232, 25, 4]가 매핑될 수 있다.
매핑코드가 매핑된 형태소 단위(31-34)는 원핫(one-hot) 벡터 형태로 데이터베이스(150)에 저장될 수도 있다. 도 2를 참조하면 각 형태소 단위(31-34)에 대응되는 원핫벡터 형식의 특징 벡터(41-44)가 나타난다. 즉 특징벡터(41)은 추출된 형태소 단위(31)에 대응되며, 형태소 단위(31)은 매핑코드 120에 대응되고, 전체 형태소 단위 개수는 3000인 것으로 가정하였으므로, 3000x1 형태의 특징벡터(41)는 120번째 행이 1이고 나머지는 0의 값을 가진다.
특징 벡터 그룹 생성부(130)는 데이터베이스(150)에 저장된 각 형태소 단위(31-34)에 대응되는 특징 벡터(41-44)를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성할 수 있다. 도 2를 참조하면 각 특징 벡터(41-44)가 하나의 특징 벡터 그룹으로 그룹핑될 수 있다.
상황 추정부(140)는 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정할 수 있다. 일 실시예에서 상황 추정부(140)는 지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정할 수 있다.
지식모델은 생성된 특징 벡터 그룹을 분석하여 현재 상황을 추정할 수 있다. 지식모델이 특징 벡터 그룹으로부터 현재 상황을 추정 알고리즘을 생성하도록 하기 위해서, 사용자는 소정 개수의 특징 벡터 그룹 및 그 벡터 그룹에 적합한 상황을 지식모델에 입력하여 지식모델 훈련과정이 수행되도록 할 수 있다. 보다 구체적으로 사용자는 원본 텍스트를 읽고 그에 상응하는 상황을 입력하게 된다. 상황 추정부(140)는 원본 텍스트를 처리하여 원본 텍스트에 대응되는 특징 벡터 그룹을 생성하고 생성된 특징 벡터 그룹을 기초로 사용자가 입력한 상황을 매칭시킬 수 있다.
컴퓨터가 판독 가능하도록 구체적인 상황들은 숫자 또는 문자로 표현될 수 있다. 예컨대 화재는1, 구급은 2, 구조는 3과 같이 상황별로 숫자가 부여되어 사용자는 원본 텍스트를 읽고 이에 맞는 상황 번호를 입력할 수도 있다.
이렇게 입력된 특징벡터 그룹과 그에 대한 상황을 기초로 지식모델은 새롭게 입력된 특징 벡터 그룹으로부터 현재 상황을 결정하는 알고리즘을 형성할 수 있다. 따라서 지식모델에 입력되는 특징 벡터 그룹과 그에 대한 상황이 패턴들이 많을수록 지식모델이 특징 벡터 그룹으로부터 결정하는 현재 상황의 정확도는 향상될 수 있다. 즉 지식모델은 일종의 지식모델로서 사용에 따라 그 기능이 점차 향상될 수 있다.
일 실시예에 있어서, 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함할 수 있으나 이에 본 발명이 제한되는 것은 아니고 기계학습을 위한 임의의 지식모델이 이용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 분류 방법의 순서도이다. 텍스트 기반의 상황 분류 방법은 상술한 상황 분류 장치의 구성요소들에 의해 구현될 수 있다.
일 실시예에 있어서, 텍스트 기반의 상황 분류 방법은 원본 텍스트 내 소정의 단어가 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 단계(S100), 상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 단계(S200), 데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 단계(S300), 및 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계(S400)를 포함한다. 여기서 상기 원본 텍스트는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장을 포함할 수 있다.
일 실시예에서 전처리 텍스트를 생성하는 단계(S100)는 상기 소정의 단어를 위치 태그로 변환시키는 단계를 포함할 수 있으며, 소정의 단어는 위치를 나타내는 단어일 수 있다.
일 실시예에 있어서, 상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계(S400)는, 지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정하는 단계를 포함할 수 있다. 여기서 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함할 수 있다. 또한 각 형태소 단위는 명사 또는 동사일 수 있다.
본 발명의 일 실시예에 있어서, 추정되는 상황은 응급상황에 관련되고, 보다 구체적으로 화재, 구급, 구조 등과 같은 상황을 텍스트 기반으로 추정할 수 있다.
본 발명의 일 실시예에 따른 컴퓨터로 판독 가능한 기록매체는, 상술한 방법을 실행하기위한 명령이 저장될 수 있다.
도 5는 본 발명의 일 실시예에 따른 텍스트 기반의 상황 추정 장치 또는 방법을 이용한 결과를 나타낸다. 도 5를 참조하면 정밀도, 재현율, F1스코어등 신뢰성 있는 수치가 도출됨을 알 수 있다.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
Claims (15)
- 상황 분류 장치에 의해 실행되는 텍스트 기반의 상황 분류방법으로서, 상기 방법은,
원본 텍스트 내 소정의 단어가 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 단계;
상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 단계;
데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 단계; 및
상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계를 포함하되,
상기 전처리 텍스트를 생성하는 단계는, 상기 소정의 단어를 위치 태그로 변환시키는 단계를 포함하고, 상기 소정의 단어는 위치를 나타내는 단어이고, 상기 위치 태그는 문자, 숫자 또는 기호 또는 이들의 조합으로 구성되며,
상기 현재 상황을 추정하는 단계 수행 시, 상기 위치 태그로 변환된 단어를 제외하고 해석함으로써, 기계학습 과정에서 발생하는 과적합 문제를 방지하여 기계학습의 정확도 및 속도를 향상시키는 것을 특징으로 하는, 텍스트 기반의 상황 분류 방법.
- 삭제
- 제1항에 있어서,
상기 원본 텍스트는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장을 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 방법.
- 제1항에 있어서,
상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 단계는,
지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정하는 것을 특징으로 하는 텍스트 기반의 상황 분류 방법.
- 제4항에 있어서,
상기 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 방법.
- 제1항에 있어서,
상기 각 형태소 단위는 명사 또는 동사인 것을 특징으로 하는 텍스트 기반의 상황 분류 방법.
- 제1항에 있어서,
상기 상황은 응급상황을 포함하고,
상기 현재 상황은 화재, 구급, 구조 중 하나 이상을 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 방법.
- 원본 텍스트 내 소정의 단어가 소정의 식별자로 변환되도록 상기 원본 텍스트를 전처리하여 전처리 텍스트를 생성하는 전처리 텍스트 생성부;
상기 전처리 텍스트에서 하나 이상의 형태소 단위를 추출하는 형태소 단위 추출부;
데이터베이스에 저장된 각 형태소 단위에 대응되는 특징 벡터를 기초로, 상기 전처리 텍스트에 대응되는 특징 벡터 그룹을 생성하는 특징 벡터 그룹 생성부; 및
상기 특징 벡터 그룹을 기초로 상기 원본 텍스트가 의미하는 현재 상황을 추정하는 상황 추정부를 포함하되,
상기 전처리 텍스트를 생성부는, 상기 소정의 단어를 위치 태그로 변환시키는 단계를 포함하고, 상기 소정의 단어는 위치를 나타내는 단어이고, 상기 위치 태그는 문자, 숫자 또는 기호 또는 이들의 조합으로 구성되며,
상기 상황 추정부는, 현재 상황을 추정 시 상기 위치 태그로 변환된 단어를 제외하고 해석함으로써, 기계학습 과정에서 발생하는 과적합 문제를 방지하여 기계학습의 정확도 및 속도를 향상시키는 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 삭제
- 제8항에 있어서,
상기 원본 텍스트는 사용자에의해 입력된 문장 또는 외부장치로부터 수신한 음성을 텍스트로 변환한 문장을 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 제8항에 있어서,
상기 상황 추정부는,
지식모델을 이용하여 상기 특징 벡터 그룹으로부터 상기 원본 텍스트가 나타내는 상황을 추정하는 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 제11항에 있어서,
상기 지식모델은 서포트벡터머신, 신경망, M5P(decision tree), Bayesian Network 중 적어도 하나를 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 제8항에 있어서,
상기 각 형태소 단위는 명사 또는 동사인 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 제8항에 있어서,
상기 상황은 응급상황을 포함하고,
상기 현재 상황은 화재, 구급, 구조 중 하나 이상을 포함하는 것을 특징으로 하는 텍스트 기반의 상황 분류 장치.
- 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 명령이 저장된, 컴퓨터로 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160183459A KR101944274B1 (ko) | 2016-12-30 | 2016-12-30 | 텍스트 기반의 상황 분류 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160183459A KR101944274B1 (ko) | 2016-12-30 | 2016-12-30 | 텍스트 기반의 상황 분류 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180078569A KR20180078569A (ko) | 2018-07-10 |
KR101944274B1 true KR101944274B1 (ko) | 2019-01-31 |
Family
ID=62916133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160183459A KR101944274B1 (ko) | 2016-12-30 | 2016-12-30 | 텍스트 기반의 상황 분류 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101944274B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102201818B1 (ko) * | 2020-10-07 | 2021-01-12 | 한국해양과학기술원 | 해상교통 관제 교신 분석 장치 및 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102271983B1 (ko) * | 2019-06-13 | 2021-07-02 | 주식회사 한컴위드 | 고객정보와 가상화폐 구매이력을 기반으로 한 기계학습 수행을 통해 사용자 맞춤의 가상화폐 추천을 제공하는 가상화폐 거래 플랫폼 서버 및 그 동작 방법 |
KR102128059B1 (ko) * | 2019-08-08 | 2020-06-29 | (주)코바이노베이션 | 고객의 정보와 금융상품 구매이력에 기초한 기계학습을 통해 최적의 금융상품을 추천하는 전자 장치 |
KR102353545B1 (ko) * | 2019-12-13 | 2022-01-20 | (주)넥타르소프트 | 재난대응 추천방법 및 그 장치 |
CN113111895A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的处警警情类别确定方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100701044B1 (ko) * | 2004-07-20 | 2007-03-29 | 황상석 | 온라인망을 기반으로 하는 위급상황 처리 시스템 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6507829B1 (en) | 1999-06-18 | 2003-01-14 | Ppd Development, Lp | Textual data classification method and apparatus |
KR101178068B1 (ko) * | 2005-07-14 | 2012-08-30 | 주식회사 케이티 | 텍스트의 카테고리 분류 장치 및 그 방법 |
-
2016
- 2016-12-30 KR KR1020160183459A patent/KR101944274B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100701044B1 (ko) * | 2004-07-20 | 2007-03-29 | 황상석 | 온라인망을 기반으로 하는 위급상황 처리 시스템 |
Non-Patent Citations (2)
Title |
---|
이규환 외 6명. '음성인식 기반 응급상황관제'. 말소리와 음성과학, 제8권 제2호, 2016.06., pp.31-39. |
조영임 외 1명. '응급상황에서의 음성인식을 위한 필터기 구현'. 한국 지능시스템 학회 논문지, 제20권 제2호, 2010.04., pp.208-213. |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102201818B1 (ko) * | 2020-10-07 | 2021-01-12 | 한국해양과학기술원 | 해상교통 관제 교신 분석 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20180078569A (ko) | 2018-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101944274B1 (ko) | 텍스트 기반의 상황 분류 장치 및 방법 | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
US11144581B2 (en) | Verifying and correcting training data for text classification | |
US20150120301A1 (en) | Information Recognition Method and Apparatus | |
CN113901797B (zh) | 文本纠错方法、装置、设备及存储介质 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
JP2018190188A (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
CN115151903A (zh) | 文本抽取方法及装置、计算机可读存储介质以及电子设备 | |
US20190018836A1 (en) | Word Segmentation method and System for Language Text | |
CN112185348A (zh) | 多语种语音识别方法、装置及电子设备 | |
CN105210055A (zh) | 根据跨语种短语表的断词器 | |
JP6553180B2 (ja) | 言語検出を行うためのシステムおよび方法 | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN113051896A (zh) | 对文本进行纠错的方法、装置、电子设备和存储介质 | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
US9449277B2 (en) | Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
JP5921601B2 (ja) | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム | |
CN118284930A (zh) | 用于装置特征分析以改善用户体验的方法和系统 | |
JP6839001B2 (ja) | モデル学習装置、情報判定装置およびそれらのプログラム | |
JP2022185799A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
CN109710927B (zh) | 命名实体的识别方法、装置、可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) |