KR101559576B1 - 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 - Google Patents
모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR101559576B1 KR101559576B1 KR1020140059159A KR20140059159A KR101559576B1 KR 101559576 B1 KR101559576 B1 KR 101559576B1 KR 1020140059159 A KR1020140059159 A KR 1020140059159A KR 20140059159 A KR20140059159 A KR 20140059159A KR 101559576 B1 KR101559576 B1 KR 101559576B1
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- feature
- sentence
- name
- object name
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 230000009471 action Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 22
- 238000010295 mobile communication Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000012797 qualification Methods 0.000 claims description 2
- 238000013518 transcription Methods 0.000 claims 1
- 230000035897 transcription Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011009 performance qualification Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 개체명, 문장목적, 화행, 동작 인식으로 나누어진 4개의 의미정보 추출(Spoken Language Understanding : SLU) 작업을 같은 인식 단위로 바꾸어 통계 기반의 기계학습인 CRF(Conditional Random Fields)와 양질의 개체명 사전을 혼합하는 방식을 통해 서로 다른 인식 단위를 가진 작업을 동시에 수행하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법을 제공하기 위한 것으로서, 입력되는 사용자 발화 음석을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 나타내는 문장을 생성하는 문장 입력부와, 문장 입력부에서 생성된 문장을 형태소 단위로 분석하는 형태소 분석부와, 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어에서 상기 형태소 분석부에서 분석된 문장과 서로 매치되는 단어를 검출하여 최장 길이 일치법을 적용하여 개체명 후보 단어를 인식하는 개체명 사전 매치부와, 개체명 사전 매치부에서 검출된 개체명 후보 단어에 대해 1어절 이상의 형태소에 BIO 태그를 부착하는 BIO 태그 부착부와, 개체명 사전 매치부에서 검출된 BIO태그가 부착된 문장으로부터 각각 동작 및 화행 인식을 분류할 수 있는 제 1, 2 태그를 부착하는 동작/화행 태그 부착부와, BIO 태그 및 제 1, 2 태그가 부착된 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 학습 데이터의 자질 집합을 구축하는 학습 데이터 자질 생성부와, 학습 자질 생성부에서 구축된 학습 데이터의 자질 집합을 기반으로 시퀀스 분류작업의 학습모델을 생성하는 CRF 학습모델 생성부와, BIO 태그와 동작/화행 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 테스트 데이터의 자질 집합을 구축하는 테스트 데이터 자질 생성부와, 테스트 자질 생성부에서 구축된 테스트 데이터의 자질 집합을 기반으로 학습 데이터로부터 생성된 CRF 학습 모델에 기반하여 시퀀스 분류작업을 수행하여 개체명, 문장목적, 동작, 화행의 의미정보가 동시에 인식된 테스트 데이터를 구성하기 위한 CRF를 이용한 테스트 데이터 의미정보 인식부로 구성되는데 있다.
Description
본 발명은 사용자로부터 입력받은 발화의 의도를 파악하는 음성 대화 처리 기술에 관한 것으로, 모바일 대화 시스템에서는 앱을 이용할 수 있으며, 모바일의 특성 상 보다 다양한 정보를 제공할 수 있기 때문에 더욱 세부적인 의미정보 추출(Spoken Language Understanding : SLU)이 필요하다. 이를 위해 4개의 의미정보 추출(SLU) 작업을 정의하고 수행하기 위해 통계 기반의 기계학습인 CRF(Conditional Random Fields)를 이용하며 서로 다른 인식 단위를 가진 각각의 작업을 같은 인식 단위로 바꾸어 동시에 수행하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법에 관한 것이다.
최근 모바일의 발전과 앱의 등장으로 사용자들은 실시간으로 정보를 얻을 수 있게 되었지만, 기하급수적으로 늘어나는 앱의 양과 정보의 양으로 인해 사용자가 원하는 양질의 정보를 찾는 것이 어려워졌다.
사용자에게 가장 편리한 인터페이스인 음성 인식을 사용하며, 앞서 제시한 문제를 해결하기 위한 방법으로 기존의 양질의 앱을 선별, 통합하여 하나의 앱을 통해 사용자가 원하는 다양한 정보를 제공하는 연구가 모바일 대화 시스템이며, 사용자의 발화를 분석해 사용자가 원하는 정보를 파악하고, 정보를 제공하기 위한 기반을 마련하는 작업을 의미정보 추출(Spoken Language Understanding : SLU)이라 한다.
기존의 대화 시스템의 의미정보 추출(SLU)은 하나의 도메인에 정해져 있거나 간단한 의미정보 추출 작업이 많았으며, 다양한 의미정보 추출 작업을 수행할 경우, 주로 파이프라인 방식을 사용해 수행했다. 이와 유사한 사전-규칙 기반 방법은 데이터가 축적됨에 따라 매번 규칙을 새로 만들어야 하며, 규칙이 일반화되지 않을 경우 많은 오류를 유발하는 단점이 있다.
또한 각각의 SLU 작업이 서로 다른 특징으로 인해 독립적, 순차적으로 수행되기 때문에, 이전 작업에서 오류가 생길 경우 다음 단계에서의 규칙이 적용되지 않아 연쇄적인 오류 문제가 발생한다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 사용자 발화의 의미정보를 세부적으로 파악하기 위해 4가지 세부모듈인 개체명, 문장목적, 동작, 화행 인식으로 의미정보를 나누며, 나누어진 인식 단위가 서로 다른 4개의 의미정보 추출(Spoken Language Understanding : SLU) 작업을 같은 인식 단위로 바꾸어 통계 기반의 기계학습인 CRF(Conditional Random Fields)와 양질의 개체명 사전을 혼합하는 방식을 통해 서로 다른 인식 단위를 가진 작업을 동시에 수행하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치의 특징은 입력되는 사용자 발화 음성을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 나타내는 문장을 생성하는 문장 입력부와, 문장 입력부에서 생성된 문장을 형태소 단위로 분석하는 형태소 분석부와, 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어에서 상기 형태소 분석부에서 분석된 문장과 서로 매치되는 단어를 검출하여 최장 길이 일치법을 적용하여 개체명 후보 단어를 인식하는 개체명 사전 매치부와, 개체명 사전 매치부에서 검출된 개체명 후보 단어에 대해 1어절 이상의 형태소에 BIO 태그를 부착하는 BIO 태그 부착부와, 개체명 사전 매치부에서 검출된 BIO태그가 부착된 문장으로부터 각각 동작 및 화행 인식을 분류할 수 있는 제 1, 2 태그를 부착하는 동작/화행 태그 부착부와, BIO 태그 및 제 1, 2 태그가 부착된 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 학습 데이터의 자질 집합을 구축하는 학습 데이터 자질 생성부와, 학습 데이터 자질 생성부에서 구축된 학습 데이터의 자질 집합을 기반으로 시퀀스 분류작업의 학습모델을 생성하는 CRF 학습모델 생성부와, BIO 태그와 동작/화행 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 테스트 데이터의 자질 집합을 구축하는 테스트 데이터 자질 생성부와, 테스트 데이터 자질 생성부에서 구축된 테스트 데이터의 자질 집합을 기반으로 학습 데이터로부터 생성된 CRF 학습 모델에 기반하여 시퀀스 분류작업을 수행하여 개체명, 문장목적, 동작, 화행의 의미정보가 동시에 인식된 테스트 데이터를 생성하기 위해 CRF를 이용한 테스트 데이터 의미정보 인식부로 구성되는데 있다.
바람직하게 상기 개체명은 인명, 지명, 조직명, 시간, 날짜, 화폐를 포함하는 고유명사로서, 개체명 인식 단위는 형태소 단위로 이는 문장에서 중요한 핵심어를 추출해 문장의 의미를 파악하기 위한 것을 특징으로 한다.
바람직하게 상기 학습 데이터 자질 생성부는 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터와, 상기 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하는 자질 추출부와, 상기 자질 추출부에서 각각 추출된 자질을 학습 데이터의 자질 집합으로 구축하는 자질 집합 구축부를 포함하여 구성되는 것을 특징으로 한다.
바람직하게 상기 테스트 데이터 자질 생성부는 개체명, 문장목적, 동작, 화행을 인식하기 위해 테스트 데이터를 기반으로 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 추출하는 자질 추출부와, 상기 자질 추출부에서 각각 추출된 자질을 테스트 데이터의 자질 집합으로 구축하는 자질 집합 구축부를 포함하여 구성되는 것을 특징으로 한다.
바람직하게 상기 자질 추출부는 학습/테스트 데이터를 기반으로 기본 자질을 추출하는 기본 자질 추출부와, 학습/테스트 데이터를 기반으로 개체명 사전 자질을 추출하는 개체명 사전 자질 추출부와, 학습/테스트 데이터를 기반으로 동작 및 화행 자질을 추출하는 동작/화행 자질 추출부를 포함하여 구성되는 것을 특징으로 한다.
바람직하게 상기 자질 집합 구축부에서 구축되는 자질 집합은 형태소 어휘, 태그, 어절 내 자질을 포함하는 기본적으로 개체명 인식에 사용되는 자질 집합과, 개체명 사전 자질, 이전 개체명 자질, 개체명 존재 여부 자질, 개체명 시퀀스 자질 등 인식 성능을 높이기 위해 사용되는 개체명 사전 자질 집합을 포함하는 것과 동작/화행 분류를 위한 동사 자질, 육하원칙 자질, 어절 자질 집합 등을 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법의 특징은 (A) 입력되는 사용자 발화 음석을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 나타내는 문장을 생성하는 단계와, (B) 형태소 분석부를 통해 생성된 문장을 형태소 단위로 분석 후, 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어에서 상기 분석된 문장과 서로 매치되는 단어에 대해 최장 길이 일치법을 적용하여 개체명 후보 단어를 생성하는 단계와, (C) 상기 분류된 생성된 개체명 후보 단어에 대해 인식된 1어절 이상의 형태소에 BIO 태그를 부착하는 단계와, (D) 상기 BIO 개체명 후보 단어가 인식된 문장으로부터 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착하는 단계와, (E) 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출하는 단계와, (F) 상기 추출된 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 학습 데이터의 자질 집합을 구축하는 단계와, (G) 상기 구축된 학습 데이터의 자질 집합을 기반으로 CRF 학습모델을 생성하는 단계와, (H) BIO 태그와 동작/화행 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출하는 단계와, (I) 상기 학습 데이터를 기반으로 추출한 자질 집합을 기반으로 시퀀스 분류 작업을 수행하여, 학습 데이터로부터 구성된 학습모델을 기반으로 개체명, 문장목적, 동작, 화행의 의미 정보가 동시에 부착된 테스트 데이터를 인식하는 단계를 포함하여 이루어지는데 있다.
바람직하게 상기 (E) 단계는 학습 데이터를 기반으로 기본 자질을 추출하는 단계와, 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 개체명 사전 자질을 추출하는 단계와, 학습 데이터를 기반으로 동작 및 화행 자질을 추출하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법은 사전-규칙 기반과 기존의 SLU의 문제점을 해결하며, 더욱 상세한 의미정보를 추출 하는 방법으로, 기계 학습 기반인 CRF와 양질의 개체명 사전을 이용함으로써, 문제를 해결하는 동시에 전체 SLU의 성능을 향상하는 효과가 있다.
도 1 은 본 발명의 실시예에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치의 구성을 나타낸 블록도
도 2 는 도 1의 자질 생성부의 구성을 상세히 나타낸 블록도
도 3 은 본 발명의 실시예에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법을 설명하기 위한 흐름도
도 4 는 문장 "오늘 서울 날씨를 보여줘"을 형태소 분석한 문장을 도시한 도면
도 5 는 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어와 서로 매치된 개체명 후보 단어에 대해 BIO를 부착한 경우를 나타낸 도면
도 6 은 검출된 문장으로부터 동작 및 화행 인식 문장에 각각 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착한 경우를 나타낸 도면
도 7 은 CRF를 이용하여 테스트 데이터의 의미정보를 추출한(개체명, 문장목적, 동작, 화행 인식) 문장을 나타낸 도면
도 2 는 도 1의 자질 생성부의 구성을 상세히 나타낸 블록도
도 3 은 본 발명의 실시예에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법을 설명하기 위한 흐름도
도 4 는 문장 "오늘 서울 날씨를 보여줘"을 형태소 분석한 문장을 도시한 도면
도 5 는 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어와 서로 매치된 개체명 후보 단어에 대해 BIO를 부착한 경우를 나타낸 도면
도 6 은 검출된 문장으로부터 동작 및 화행 인식 문장에 각각 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착한 경우를 나타낸 도면
도 7 은 CRF를 이용하여 테스트 데이터의 의미정보를 추출한(개체명, 문장목적, 동작, 화행 인식) 문장을 나타낸 도면
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1 은 본 발명의 실시예에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치의 구성을 나타낸 블록도이다.
도 1에서 도시하고 있는 것과 같이, 본 발명의 동시 인식 장치는 문장 입력부(100)와, 형태소 분석부(200)와, 개체명 사전 매치부(400)와, BIO 태그 부착부(500)와, 동작/화행 태그 부착부(600)와, 학습 데이터 자질 생성부(700)와, CRF 학습모델 생성부(800)와, 테스트데이터 자질 생성부(900)와, CRF를 이용한 테스트데이터 의미정보 인식부(1000)로 구성된다.
상기 문장 입력부(100)는 입력되는 사용자 발화 음석을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 추출하여 문장을 생성한다.
상기 형태소 분석부(200)는 문장 입력부(100)에서 생성된 문장을 형태소 단위로 분석한다.
상기 개체명 사전 매치부(400)는 개체명이 미리 저장되어 있는 개체명 사전(300)에 존재하는 단어에서 상기 형태소 분석부(200)에서 분석된 문장과 서로 매치되는 단어를 검출한다. 이때 상기 개체명은 인명, 지명, 조직명, 시간, 날짜, 화폐 등의 고유명사로서, 개체명 인식 단위는 형태소 단위로 이는 문장에서 중요한 핵심어를 추출해 문장의 의미를 파악하는데 도움을 준다. 그리고 상기 문장목적은 문장 내에서 특정 문장목적으로 분류할 수 있는 핵심적인 구간을 설정하는 실마리 구간 탐색 방법을 통해 분류하며, 이를 위해 학습 데이터의 각 문장에 실마리 구간을 설정했으며, CRF를 통해 동시 인식을 수행할 때, 테스트 데이터는 학습 데이터를 기반으로 문장목적 구간을 추출해 문장목적 분류를 수행한다. 문장목적 단위는 문장 단위이며, 문장 내에 개체명은 여러 개 존재할 수 있지만, 문장목적은 한 개만 존재한다는 차이점이 있다.
상기 BIO 태그 부착부(500)는 개체명 사전 매치부(400)에서 검출된 단어에 대해 최장 길이 일치법을 적용하여 인식된 1어절 이상의 형태소에 BIO 태그를 부착하며, 이후 CRF를 이용해 테스트 데이터 의미정보(1000)를 분류할 때, 개체명 사전 자질로 개체명 후보 단어를 이용할 수 있도록 한다. 이때, 상기 최장 길이 일치법은 1어절 이상의 개체명이 일치하는 경우, 이를 모두 하나의 개체명으로 인식하는 기법으로, 이를 통해 1어절 이상의 개체명도 인식할 수 있도록 한다.
상기 동작/화행 태그 부착부(600)는 개체명 BIO 태그 부착부(500)에서 검출된 문장에 각각 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 부착한다.
이때, 상기 동작 인식은 문장을 분석하여 사용자가 정보를 시각적으로 보기를 원하는지 혹은 소프트웨어에 정보를 저장하기를 원하는지에 대한 소프트웨어가 수행할 동작을 분석하는 작업이다. 예를 들어, 문장 "오늘 날씨를 보여줘"에서는 사용자가 정보를 "시각적으로 보기"를 원한다는 것을 알 수 있고, 또한 문장 "9시에 알람을 설정해줘"에서는 사용자가 소프트웨어에 "정보를 저장"하기를 원하는 것을 알 수 있다. 그리고 상기 화행 인식은 사용자가 정보를 구체적으로 요구하는지 혹은 단답형으로 요구하는지에 대해 파악하는 작업이다. 예를 들어, 문장 "오늘 저녁에 비와"에서 소프트웨어는 사용자가 "Yes/No"의 답을 원하는 것을 알 수 있으며, 문장 "오늘 날씨를 보여줘"에서는 "상세한 정보 요청"으로 답을 원하는 것을 알 수 있다.
학습 데이터 상기 자질 생성부(700)는 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 학습 데이터의 자질 집합을 구축한다.
상기 학습 데이터 자질 생성부(700)는 도 2에서 도시하고 있는 것과 같이, 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터(720)와, 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하는 자질 추출부(710)와, 상기 자질 추출부(710)에서 각각 추출된 자질을 자질 집합으로 구축하는 자질 집합 구축부(730)로 구성된다.
이때, 상기 자질 추출부(710)는 학습 데이터를 기반으로 기본 자질을 추출하는 기본 자질 추출부(712)와, 학습 데이터를 기반으로 개체명 사전 자질을 추출하는 개체명 사전 자질 추출부(714)와, 학습 데이터를 기반으로 동작 및 화행 자질을 추출하는 동작/화행 자질 추출부(716)를 포함한다.
CRF 학습 모델 생성부는 학습 데이터 자질 생성부(700)로부터 추출된 자질 집합을 자질 집합 구축부(730)에서 구축한 후, 이 정보를 기반으로 CRF 학습 모델을 생성한다.
테스트 데이터 자질 생성부(900)는 BIO 태그 부착부(500) 및 동작/화행 태그 부착부(600)에서 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 기본 자질 추출부(712)와, 개체명 사전 자질을 추출하는 개체명 사전 자질 추출부(714)와, 동작 및 화행 자질을 추출하는 동작/화행 자질 추출부(716)를 포함한다.
자질을 설명하기 위해 형태소 분석된 문장 "오늘/NNG 서울/NNG 날씨/NNG 보이/VV+어/EC+주/VX+어/EC"을 예로 들어 자세히 설명하면 다음과 같다.
상기 기본 자질은 개체명 인식에 사용되는 자질의 집합으로, 아래 표 1과 같이 나타낼 수 있으며, 개체명 사전 자질은 아래 표 2와 같이 나타낼 수 있으며, 동작/화행 자질은 아래 표 3과 같이 나타낼 수 있다.
마지막으로, 상기 자질 집합 구축부(730)에서 구축되는 자질 집합은 형태소 어휘, 태그, 어절 내 자질 등 기본적으로 개체명 인식에 사용되는 자질 집합과, 개체명 사전 자질, 이전 개체명 자질, 개체명 존재 여부 자질, 개체명 시퀀스 자질 등 인식 성능을 높이기 위해 사용되는 개체명 사전 자질 집합과, 동작/화행 분류를 위한 동사 자질, 육하원칙 자질, 어절 자질 집합 등을 포함한다.
상기 CRF는 학습 데이터 자질 생성부(700)에서 구축된 학습 데이터의 자질 집합을 기반으로 학습된 CRF 학습모델(800)을 구축하고, 테스트 데이터 자질 생성부(900)에서 구축된 테스트 데이터의 자질 집합을 기반으로 CRF 학습모델(800)을 이용하여 시퀀스 분류작업을 수행하여, 테스트 데이터의 개체명, 문장목적, 동작, 화행 등이 부착된 의미정보를 분석한 문장 결과를 도출한다(1000).
이와 같이 구성된 본 발명에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1 또는 도 2와 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다.
도 3 은 본 발명의 실시예에 따른 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법을 설명하기 위한 흐름도이다.
도 3을 참조하여 설명하면, 먼저 입력되는 사용자 발화 음석을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 추출하여 문장을 생성한다(S10). 일예로서 생성된 문장은 "오늘 서울 날씨 보여줘"라고 정의한다.
이어, 형태소 분석부(200)를 통해 생성된 문장을 형태소 단위로 분석한 후(S20), 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전(300)에 존재하는 단어에서 상기 형태소 분석부(200)에서 분석된 문장과 서로 매치되는 단어 에 대해 최장 길이 일치법을 적용하여 개체명 후보 단어로 인식한다(S30).
그리고 검출된 개체명 후보 단어가 인식된 문장에서 개체명 후보 단어에 대해 1어절 이상의 형태소에 BIO 태그를 부착한다(S40). 도 4 는 문장 "오늘 서울 날씨를 보여줘"에 대해 형태소 분석된 문장을 도시한 도면이다. 그리고 도 5 는 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전(300)에 존재하는 단어와 서로 매치하고, 매치된 개체명 후보 단어에 대해 BIO를 부착한 경우를 나타낸 도면이다.
아울러, 개체명 사전 매치부(400)에서 개체명 후보 단어에 대해 인식된 문장으로부터 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착한다(S50). 도 6 은 테스트 데이터로부터 동작 및 화행 인식 문장에 각각 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착한 경우를 나타낸 도면이다. 이어, 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출한다(S60).
그리고 학습 데이터를 기반으로 추출한 자질 집합을 이용하여 시퀀스 분류를 위한 CRF 학습 모델을 생성한다.(S70)
아울러, 개체명 후보 단어에 대해 BIO 태그와 OP, SA라는 제 1, 2 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출한다(S80).
그리고 학습 데이터로부터 구축된 CRF 학습모델을 이용하여 테스트 데이터의 개체명, 문장목적, 동작, 화행을 인식하여 발화의 의미 정보를 추출한다.(S90) 도 7은 테스트 데이터 문장에 개체명, 문장목적, 동작, 화행의 의미 정보를 추출한 정보를 보여주는 도면이다.
상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
Claims (7)
- 입력되는 사용자 발화 음성을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 나타내는 문장을 생성하는 문장 입력부와,
문장 입력부에서 생성된 문장을 형태소 단위로 분석하는 형태소 분석부와,
개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어에서 상기 형태소 분석부에서 분석된 문장과 서로 매치되는 단어를 검출하고, 매치된 개체명 후보 단어에 대해 최장 길이 일치법을 적용하는 개체명 사전 매치부와,
개체명 사전 매치부에서 검출된 단어에 대해 개체명 후보 단어로 인식된 1어절 이상의 형태소에 BIO 태그를 부착하는 BIO 태그 부착부와,
개체명 사전 매치부에서 개체명 후보 단어에 대해 인식된 문장으로부터 동작 및 화행 인식을 분류할 수 있는 제 1, 2 태그를 부착하는 동작/화행 태그 부착부와,
개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하여 학습 데이터의 자질 집합을 구축하는 학습 데이터 자질 생성부와,
학습 데이터 자질 생성부에서 구축된 자질 집합을 기반으로 CRF 학습 모델을 생성하는 CRF 학습 모델 생성부와,
개체명 후보 단어에 대해 BIO 태그와 OP, SA라는 제 1, 2 태그가 부착된 테스트 데이터의 자질 집합을 구축하는 테스트 데이터 자질 생성부와,
테스트 데이터 자질 생성부에서 구축된 테스트 데이터의 자질 집합을 기반으로 학습 데이터로부터 생성된 CRF 학습 모델에 기반하여 시퀀스 분류작업을 수행하여 개체명, 문장목적, 동작, 화행의 의미정보가 동시에 인식된 테스트 데이터를 생성하기 위해 CRF를 이용한 테스트 데이터 의미정보 인식부를 포함하여 구성되는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈의 위한 동시 인식 장치. - 제 1 항에 있어서,
상기 개체명은 인명, 지명, 조직명, 시간, 날짜, 화폐를 포함하는 고유명사로서, 개체명 인식 단위는 형태소 단위로 이는 문장에서 중요한 핵심어를 추출해 문장의 의미를 파악하기 위한 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치. - 제 1 항에 있어서,
상기 학습 데이터 자질 생성부는
개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터와,
상기 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 각각 추출하는 자질 추출부와,
상기 자질 추출부에서 각각 추출된 자질을 학습 데이터의 자질 집합으로 구축하는 자질 집합 구축부를 포함하고,
상기 테스트 데이터 자질 생성부는
개체명, 문장목적, 동작, 화행을 인식하기 위해 테스트 데이터를 기반으로 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 추출하는 자질 추출부와,
상기 자질 추출부에서 각각 추출된 자질을 테스트 데이터의 자질 집합으로 구축하는 자질 집합 구축부를 포함하여 구성되는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치. - 제 3 항에 있어서, 상기 자질 추출부는
학습 데이터와 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 기본 자질을 추출하는 기본 자질 추출부와,
학습 데이터와 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 개체명 사전 자질을 추출하는 개체명 사전 자질 추출부와,
학습 데이터와 BIO 태그 및 제 1, 2 태그가 부착된 테스트 데이터로부터 동작 및 화행 자질을 추출하는 동작/화행 자질 추출부를 포함하여 구성되는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치. - 제 3 항에 있어서,
상기 자질 집합 구축부에서 구축되는 자질 집합은 형태소 어휘, 태그, 어절 내 자질을 포함하는 기본적으로 개체명 인식에 사용되는 자질 집합과, 개체명 사전 자질, 이전 개체명 자질, 개체명 존재 여부 자질, 개체명 시퀀스 자질을 포함하는 인식 성능을 높이기 위해 사용되는 개체명 사전 자질 집합을 포함하는 것과 동작 및 화행 분류를 위한 동사 자질, 육하원칙 자질, 어절 자질 집합을 포함하는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치. - (A) 입력되는 사용자 발화 음석을 분석하고 음성의 형태를 나타내는 음성 특징정보 및 상기 음성의 내용을 나타내는 문장을 생성하는 단계와,
(B) 형태소 분석부를 통해 생성된 문장을 형태소 단위로 분석 후, 형태소 분석된 문장을 개체명이 미리 저장되어 있는 개체명 사전에 존재하는 단어에서 상기 분석된 문장과 서로 매치되는 단어에 대해 최장 길이 일치법을 적용하여 개체명 후보 단어를 생성하는 단계와,
(C) 상기 생성된 개체명 후보 단어에 인식된 1어절 이상의 형태소에 BIO 태그를 부착하는 단계와,
(D) 상기 BIO 개체명 후보 단어가 분류된 문장으로부터 동작 및 화행 인식을 분류할 수 있는 OP, SA라는 제 1, 2 태그를 각각 부착하는 단계와,
(E) 개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출하는 단계와,
(F) 상기 추출된 기본 자질, 개체명 사전 자질, 동작 및 화행 자질을 학습 데이터의 자질 집합을 구축하는 단계와,
(G) 상기 구축된 학습 데이터의 자질 집합을 기반으로 CRF 학습모델을 생성하는 단계와,
(H) BIO 태그와 동작/화행 태그가 부착된 테스트 데이터로부터 기본 자질, 개체명 사전 자질, 동작/화행 자질을 추출하는 단계와,
(I) 상기 학습 데이터를 기반으로 추출한 자질 집합을 기반으로 시퀀스 분류 작업을 수행하여, 학습 데이터로부터 구성된 CRF 학습모델을 기반으로 개체명, 문장목적, 동작, 화행의 의미 정보가 동시에 부착된 테스트 데이터를 인식하는 단계를 포함하여 이루어지는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법. - 제 6 항에 있어서, 상기 (E) 단계는
학습 데이터를 기반으로 기본 자질을 추출하는 단계와,
개체명, 문장목적, 동작, 화행 정보가 미리 저장되어 있는 학습 데이터를 기반으로 개체명 사전 자질을 추출하는 단계와,
학습 데이터를 기반으로 동작 및 화행 자질을 추출하는 단계를 포함하여 이루어지는 것을 특징으로 하는 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140059159A KR101559576B1 (ko) | 2014-05-16 | 2014-05-16 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140059159A KR101559576B1 (ko) | 2014-05-16 | 2014-05-16 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101559576B1 true KR101559576B1 (ko) | 2015-10-15 |
Family
ID=54357031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140059159A KR101559576B1 (ko) | 2014-05-16 | 2014-05-16 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101559576B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210103285A (ko) * | 2020-02-13 | 2021-08-23 | (주) 큰사람커넥트 | 개체명 인식을 이용한 문장 분석 효율화 방법 |
CN113571045A (zh) * | 2021-06-02 | 2021-10-29 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100877477B1 (ko) | 2007-06-28 | 2009-01-07 | 주식회사 케이티 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
-
2014
- 2014-05-16 KR KR1020140059159A patent/KR101559576B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100877477B1 (ko) | 2007-06-28 | 2009-01-07 | 주식회사 케이티 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210103285A (ko) * | 2020-02-13 | 2021-08-23 | (주) 큰사람커넥트 | 개체명 인식을 이용한 문장 분석 효율화 방법 |
KR102387206B1 (ko) * | 2020-02-13 | 2022-04-15 | (주) 큰사람커넥트 | 개체명 인식을 이용한 문장 분석 효율화 방법 |
CN113571045A (zh) * | 2021-06-02 | 2021-10-29 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN113571045B (zh) * | 2021-06-02 | 2024-03-12 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
CN117034942B (zh) * | 2023-10-07 | 2024-01-09 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568855B2 (en) | System and method for defining dialog intents and building zero-shot intent recognition models | |
US20210224043A1 (en) | Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
KR102267561B1 (ko) | 음성 언어 이해 장치 및 방법 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
KR101559576B1 (ko) | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 | |
CN116821290A (zh) | 面向多任务对话的大语言模型训练方法和交互方法 | |
Dyriv et al. | The user's psychological state identification based on Big Data analysis for person's electronic diary | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
Zahariev et al. | An approach to speech ambiguities eliminating using semantically-acoustical analysis | |
CN115881108A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN111782779B (zh) | 语音问答方法、系统、移动终端及存储介质 | |
JP2013109738A (ja) | 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム | |
CN113889115A (zh) | 一种基于语音模型的方言转述方法及相关装置 | |
Win et al. | Review and perspectives of natural language processing for speech recognition | |
KR20120042381A (ko) | 음성인식 문장의 문형식별 장치 및 방법 | |
Kafle et al. | Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues | |
Kobylyukh et al. | Analyzing the Accuracy of Speech-to-Text APIs in Transcribing the Ukrainian Language. | |
Dandge et al. | Multilingual Global Translation using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181005 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20191002 Year of fee payment: 5 |