KR102069698B1 - 언어분석결과 업데이트 장치 및 방법 - Google Patents

언어분석결과 업데이트 장치 및 방법 Download PDF

Info

Publication number
KR102069698B1
KR102069698B1 KR1020140162397A KR20140162397A KR102069698B1 KR 102069698 B1 KR102069698 B1 KR 102069698B1 KR 1020140162397 A KR1020140162397 A KR 1020140162397A KR 20140162397 A KR20140162397 A KR 20140162397A KR 102069698 B1 KR102069698 B1 KR 102069698B1
Authority
KR
South Korea
Prior art keywords
information
analysis
language
metadata
linguistic
Prior art date
Application number
KR1020140162397A
Other languages
English (en)
Other versions
KR20160060820A (ko
Inventor
임준호
김현기
류법모
배용진
오효정
이충희
임수종
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140162397A priority Critical patent/KR102069698B1/ko
Priority to US14/932,425 priority patent/US20160147739A1/en
Publication of KR20160060820A publication Critical patent/KR20160060820A/ko
Application granted granted Critical
Publication of KR102069698B1 publication Critical patent/KR102069698B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

본 발명은 대용량 언어분석결과 중 부정확한 부분을 자동 탐색하여 업데이트하는 언어분석결과 업데이트 장치 및 방법에 관한 것으로서, 본 발명에 따른 언어분석결과 업데이트 장치는 언어분석결과 및 상기 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 저장부; 및 언어지식 리소스에 추가된 언어지식을 기반으로 상기 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 상기 언어분석결과를 업데이트하는 업데이트부를 포함한다.

Description

언어분석결과 업데이트 장치 및 방법{Apparatus and Method Correcting Linguistic Analysis Result}
본 발명은 언어분석결과 업데이트 장치 및 방법에 관한 것으로서, 보다 구체적으로는 대용량 언어분석결과 중 부정확한 부분을 자동 탐색하여 업데이트하는 장치 및 방법에 관한 것이다.
일반적으로 언어를 분석하는데 사용되는 기술로는 크게 지식베이스기술, 언어분석기술, 언어분석활용기술 등이 있다.
지식베이스기술로는 NELL(Never Ending Language Learner, 멈추지 않는 언어 학습기), 프리베이스(Freebase), 야고(YAGO) 등과 같이 온라인상의 텍스트를 분석하여 지식베이스를 지속적으로 확장시키고 축적하는 기술 등이 있다.
예컨대, NELL은 24시간 인터넷에서 정보를 찾아다니며 언어 지식을 확장하는 지식베이스기술로서, 단어나 문장을 쉴 새 없이 검색, 비교 및 분석하여 그 뜻을 이해하면서 스스로 언어지식을 계속해서 확대해 나가는 것이다.
언어분석기술로는 문장분리, 형태소분석, 단어의미분석, 개체명분석, 구문분석, 의미분석, 상호참조분석, 생략복원과 같은 자연어처리기술 등이 있다.
각 단계별 언어분석 기술은 내부적으로 지식베이스를 포함한 언어지식 리소스를 참고하여 언어분석을 수행하는 것이다.
언어분석활용기술로는 언어분석기술에 의해 분석된 결과를 기반으로 정보검색을 위한 어휘 쌍 추출 기술, 문장에 표현된 관계(Relation)정보를 추출하기 위한 관계추출(Relation Extraction) 기술 등이 있다.
한편, 종래에 언어를 분석하는데 사용된 기술(언어분석기술)은 계산 복잡도가 높고 처리 시간이 많이 소요되기 때문에, 대용량 문서에 대해 언어를 한번 분석한 다음 대용량 문서에 대해 다시 언어를 분석하는 행위는 효율적 측면에서나 시간적 측면에서 실효성이 많이 떨어진다는 문제점이 있다.
즉 종래의 언어분석기술은 언어분석기의 성능이 향상되더라도 성능이 향상된 언어분석기를 사용하여 대용량 문서 전체를 다시 언어분석 하기 전까지 향상된 언어분석기의 성능(좀 더 정확한 언어분석기의 언어분석능력)을 기분석된 언어분석 결과에 반영할 수 없다는 문제점이 있다.
따라서, 이러한 문제로 인해 향상된 언어 분석기의 성능을 기분석된 언어분석 결과에 반영하기 위해 대용량 문서에 대해 언어 분석을 다시 수행하는 것은 언어 분석결과의 정확도를 향상시키기 위한 것이다 할지라도, 여전히 계산 복잡도가 높고 처리 시간이 많이 소요되기 때문에 그 자체적으로 실효성이 많이 떨어진다는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 대용량 문서에 대한 기분석된 언어분석 결과에서 부정확하게 분석된 부분 및 신규로 추가된 언어지식을 기반으로(지식베이스 확장에 따른) 더 정확하게 분석할 수 있는 부분을 탐색하여 업데이트하는 언어분석결과 업데이트 장치 및 방법을 제공하는 데 그 목적이 있다.
전술한 목적을 달성하기 위하여, 본 발명의 일면에 따른 언어분석결과 업데이트 장치는 언어분석결과 및 상기 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 저장부; 및 언어지식 리소스에 추가된 언어지식을 기반으로 상기 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 상기 언어분석결과를 업데이트하는 업데이트부를 포함하는 것을 특징으로 한다.
상기 언어분석 메타데이터는 타임스탬프 정보, 언어분석 버전 정보, 문서ID 정보, 도메인 정보, 문장ID 정보, 원문 정보, 태그 정보, 처리모듈 정보, 단위입력 정보, 단위결과 정보, 신뢰도 정보 및 리저브 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 업데이트부는, 상기 언어지식 리소스에 언어지식 추가가 확인되면, 추가된 언어지식을 기반으로 리소스 증가 통계 정보 및 추가 어휘 정보를 검출하는 검출부; 상기 검출부에 의해 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 저장된 상기 언어분석 메타데이터 중 재분석될 언어분석 메타데이터를 선별하는 판단부; 및 선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 분석부를 포함하는 것을 특징으로 한다.
상기 업데이트부는 저장된 언어분석 메타데이터 중 상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 도메인 정보 또는 태그 정보의 증가 값이 기설정된 증가 값 이상인 언어분석 메타데이터를 선별하는 것을 특징으로 한다.
상기 업데이트부는 선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하고, 세부분석 수행에 따른 세부분석결과 정보와 및 신뢰도 정보를 출력하는 것을 특징으로 한다.
상기 업데이트부는 상기 분석부에 의해 출력된 상기 세부분석결과 정보와 선별된 언어분석 메타데이터의 단위결과 정보를 비교하고, 비교결과 상기 세부분석결과 정보와 상기 단위결과 정보가 일치하지 않으면, 상기 분석부에 의해 출력된 상기 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하는지 여부를 판단하는 것을 특징으로 한다.
상기 업데이트부는 판단결과 출력된 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하지 않으면, 선별된 언어분석 메타데이터의 처리모듈 정보에 포함된 처리모듈부터 추가된 상기 언어지식을 이용하여 선별된 언어분석 메타데이터에 대한 세부분석을 재수행하는 것을 특징으로 한다.
상기 업데이트부는 선별된 언어분석 메타데이터에 대한 세부분석 재수행에 따른 재분석결과를 기반으로 저장된 상기 언어분석결과 중 선별된 언어분석 메타데이터에 대응되는 언어분석결과를 업데이트하는 것을 특징으로 한다.
상기 업데이트부는 언어분석 수행에 따라 획득된 상기 언어분석결과 중 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인 경우, 상기 신뢰도 값이 기설정된 신뢰도 값 이하인 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 상기 저장부에 저장하는 것을 특징으로 한다.
상기 저장부는, 상기 언어분석결과를 저장하는 언어분석결과 저장영역; 및 상기 언어분석 메타데이터를 저장하는 언어분석 메타데이터 저장영역을 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 따른 언어분석결과 업데이트 방법은 언어분석결과 및 상기 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 단계; 및 언어지식 리소스에 추가된 언어지식을 기반으로 상기 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 상기 언어분석결과를 업데이트하는 단계를 포함하는 것을 특징으로 한다.
상기 언어분석 메타데이터는 타임스탬프 정보, 언어분석 버전 정보, 문서ID 정보, 도메인 정보, 문장ID 정보, 원문 정보, 태그 정보, 처리모듈 정보, 단위입력 정보, 단위결과 정보, 신뢰도 정보 및 리저브 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 업데이트하는 단계는, 상기 언어지식 리소스에 언어지식 추가가 확인되면, 추가된 언어지식을 기반으로 리소스 증가 통계 정보 및 추가 어휘 정보를 검출하는 단계; 상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 저장된 상기 언어분석 메타데이터 중 재분석될 언어분석 메타데이터를 선별하는 단계; 및 선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 단계를 포함하는 것을 특징으로 한다.
상기 언어분석 메타데이터를 선별하는 단계는, 저장된 언어분석 메타데이터 중 상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 도메인 정보 또는 태그 정보의 증가 값이 기설정된 증가 값 이상인 언어분석 메타데이터를 선별하는 단계인 것을 특징으로 한다.
상기 세부분석을 수행하는 단계는, 선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 단계; 및 세부분석 수행에 따른 세부분석결과 정보와 및 신뢰도 정보를 출력하는 단계를 포함하는 것을 특징으로 한다.
상기 세부분석을 수행하는 단계는, 출력된 상기 세부분석결과 정보와 선별된 언어분석 메타데이터의 단위결과 정보를 비교하는 단계; 및 비교결과 상기 세부분석결과 정보와 상기 단위결과 정보가 일치하지 않으면, 상기 분석부에 의해 출력된 상기 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하는지 여부를 판단하는 단계를 더 포함하는 것을 특징으로 한다.
상기 세부분석을 수행하는 단계는, 판단결과 출력된 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하지 않으면, 선별된 언어분석 메타데이터의 처리모듈 정보에 포함된 처리모듈부터 추가된 상기 언어지식을 이용하여 선별된 언어분석 메타데이터에 대한 세부분석을 재수행하는 단계를 더 포함하는 것을 특징으로 한다.
상기 업데이트하는 단계는, 선별된 언어분석 메타데이터에 대한 세부분석 재수행에 따른 재분석결과를 기반으로 저장된 상기 언어분석결과 중 선별된 언어분석 메타데이터에 대응되는 언어분석결과를 업데이트하는 단계인 것을 특징으로 한다.
상기 언어분석 메타데이터를 저장하는 단계는, 언어분석 수행에 따라 획득된 상기 언어분석결과 중 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인지 여부를 판단하는 단계; 및 판단결과, 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인 경우, 상기 신뢰도 값이 기설정된 신뢰도 값 이하인 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 단계를 포함하는 것을 특징으로 한다.
상기 언어분석 메타데이터를 저장하는 단계는, 상기 언어분석결과를 언어분석결과 저장영역에 저장하는 단계; 및 상기 언어분석 메타데이터를 언어분석 메타데이터 저장영역에 저장하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 대용량 문서에 대한 기분석된 언어분석 결과에서 부정확하게 분석된 부분 및 신규로 추가된 언어지식을 기반으로(지식베이스 확장에 따른) 더 정확하게 분석할 수 있는 부분을 탐색하여 더욱 정확한 언어분석 결과로 업데이트할 수 있어서 대용량 문서 전체를 다시 분석하지 않아도 향상된 분석기의 성능을 기분석된 언어분석결과에 반영할 수 있는 효과가 있다.
특히 기분석된 언어분석결과 중 더 정확하게 분석할 수 있는 부분만 탐색하여 분석할 수 있기 때문에 언어분석을 효율적으로 할 수 있는 이점이 있다.
또한, 실시간으로 증가하는 언어지식 베이스의 지식을 이용할 수 있어서 언어분석결과를 실시간으로 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 언어분석결과 업데이트 장치를 나타낸 블럭도.
도 2는 도 1의 분석부를 구체적으로 나타내 블럭도.
도 3은 본 발명의 일 실시예에 따른 언어분석결과 업데이트 방법을 나타내 흐름도.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하, 도 1 및 도 2를 참조하여 본 발명의 일 실시예에 따른 언어분석결과 업데이트 장치를 설명한다. 도 1은 본 발명의 일 실시예에 따른 언어분석결과 업데이트 장치를 나타낸 블럭도이고, 도 2는 도 1의 분석부를 구체적으로 나타내 블럭도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 언어분석결과 업데이트 장치는 언어지식 리소스(100), 업데이트부(200) 및 저장부(300)를 포함한다.
먼저 언어지식 리소스(100)는 지식베이스로서, 위키백과, 뉴스, 블로그 등과 같이 지속적으로 증가하는 텍스트 빅 데이터를 분석하여 개체명 목록(영화명, 드라마명, 도서명, 인물명 등) 및 그 분류, 어휘 네트워크(워드넷 등), 관계 베이스(사람-CEO-회사, 사람-제작-영화, 사람-출연-영화 등) 등의 언어지식을 지속적으로 확장한다.
예컨대, 언어지식 리소스(100)는 텍스트 빅 데이터로부터 신규 개체명과 그 분류 정보를 추출하고, 추출된 신규 개체명과 그 분류 정보를 검증하여 개체명 목록을 지속적으로 확장한다. 언어지식 리소스(100)는 텍스트 빅 데이터로부터 어휘 간의 관계를 인식하고, 인식된 어휘 간의 관계를 검증하여 어휘 네트워크를 지속적으로 확장한다. 언어지식 리소스(100)는 텍스트 빅 데이터로부터 새로운 관계를 추출하고, 추출된 새로운 관계를 검증하여 관계 베이스를 지속적으로 확장한다.
업데이트부(200)는 분석부(210), 검출부(220) 및 판단부(230)를 포함하고, 언어지식 리소스(100)에 추가된 언어지식을 기반으로 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 언어분석결과를 업데이트한다.
먼저 분석부(210)는 언어지식 리소스(100)를 이용하여 웹, 도서 등과 같은 일반 텍스트가 포함된 문서에 대해 언어분석을 수행한다.
예컨대, 분석부(210)는 도 2에 도시된 바와 같이, 문장 분리 모듈(211), 형태소 분석 모듈(212), 어휘의미 분석 모듈(213), 개체명 분석 모듈(214), 구문 분석 모듈(215), 의미 분석 모듈(216), 상호참조 분석 모듈(217) 및 생략 복원 모듈(218)을 포함한다. 분석부(210)는 각 모듈(211 내지 218)을 이용하여 문서에 대한 언어분석을 세분화하여 수행한다.
각 모듈(211 내지 218)은 웹, 도서 등과 같은 일반 텍스트가 포함된 문서에 대해 언어분석을 세부적으로 수행하고, 세부분석결과 및 세부분석결과에 대응되는 신뢰도 값을 출력한다.
먼저 문장 분리 모듈(211)은 웹, 도서 등과 같은 일반 텍스트를 문장으로 분리한다.
형태소 분석 모듈(212)은 문장 분리 모듈(211)에 의해 일반 텍스트가 분리된 문장에서 명사, 동사, 조사 등의 형태소를 분석한다.
어휘의미 분석 모듈(213)은 형태소 분석 모듈(212)에 의해 형태소가 분석된 문장에서 동음이의어 및 다의어의 중의성 해소를 위해 어휘의미를 분석한다.
개체명 분석 모듈(214)은 어휘의미 분석 모듈(213)에 의해 어휘의미가 분석된 문장에서 언어지식 리소스(100)를 이용하여 영화명, 지명 등 고유 개체를 가리키는 명사구(개체명)를 분석한다.
구문 분석 모듈(215)은 개체명 분석 모듈(214)에 의해 개체명이 분석된 문장에서 어휘 간의 구조적(연결) 관계를 분석한다.
의미 분석 모듈(216)은 구문 분석 모듈(215)에 의해 어휘 간의 연결 관계가 분석된 문장에서 표현 의미 정보를 분석한다(SRL: Semantic Role Labeling).
상호참조 분석 모듈(217)은 의미 분석 모듈(216)에 의해 표현 의미 정보가 분석된 문장에서 문장 내, 문장 간 동일 대상을 가리키는 표현을 분석한다.
생략 복원 모듈(218)은 문장 내, 문장 간 동일 대상을 가리키는 표현이 분석된 문장에서 생략 성분을 인식하고 생략 성분을 복원한다.
전술한 바와 같이, 분석부(210)는 웹, 도서 등과 같은 일반 텍스트(문장)가 포함된 문서에 대해 각 모듈(211 내지 218)을 이용하여 언어분석을 세분화하여 수행하고, 언어분석결과를 저장부(300)에 저장한다.
또한 분석부(210)는 저장된 언어분석결과에 대한 업데이트 여부 판단시 사용할 언어분석 메타데이터를 저장부(300)에 저장한다.
예컨대, 표 1에 표시된 바와 같이, 분석부(210)는 타임스탬프, 언어분석 버전, 문서ID, 도메인, 문장ID, 원문, 태그, 처리모듈, 단위입력, 단위결과, 신뢰도 및 리저브를 식별항목으로 하는 룩업 테이블을 작성한다. 분석부(210)는 작성된 룩업 테이블을 이용하여 언어분석 메타데이터를 저장부(300)에 저장한다.
타임스탬프 언어분석 버전 문서 ID 도멘인 문장 ID 원문 태그 처리 모듈 단위입력 단위결과 신뢰도 리저브
이하, 분석부(210)의 언어분석 수행에 따른 언어분석 메타데이터의 저장 과정을 설명한다.
분석부(210)는 웹, 도서 등과 같은 일반 텍스트(문장)가 포함된 문서에 대한 언어분석 수행 시간 정보를 식별항목 타임 스탬프에 대응시켜 저장한다.
분석부(210)는 자신의 버전 정보를 식별항목 언어분석 버전에 대응시켜 저장한다.
분석부(210)는 분석을 수행할 문서의 고유 ID를 식별항목 문서 ID에 대응시켜 저장한다.
분석부(210)는 선행기술인 자동 문서 분류 기술을 이용하고, 언어지식 리소스(100)의 하이어라키와 호환 가능한 도메인 분류를 사용하여 문서의 분야(영화, 음악, 스포츠, 자동차 등)를 분류한다. 분석부(210)는 분류된 문서 분야 정보를 식별항목 도메인에 대응시켜 저장한다.
분석부(210)는 문장의 고유 ID를 식별항목 문장 ID에 대응시켜 저장한다.
분석부(210)는 문장 원문 정보를 식별항목 원문에 대응시켜 저장한다.
분석부(210)는 문장에 포함된 개체명 및 문서 내에서 빈도수가 기설정된 빈도수 보다 낮은 단어를 식별항목 태그에 대응시켜 저장한다.
예컨대, 분석부(210)는 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요." 문장에서 "키이라 나이틀리(개체명)", "비긴" 및 "어게인(빈도수가 기설정된 빈도수 보다 낮은 단어)"을 식별항목 태그에 대응시켜 저장한다.
분석부(210)는 각 모듈(211 내지 218) 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 출력한 모듈 정보를 식별항목 처리모듈에 대응시켜 저장한다.
예컨대, 분석부(210)는 구문 분석 모듈(215)에 의해 출력된 세부분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 경우, 구문 분석 모듈 정보를 식별항목 처리 모듈에 대응시켜 저장한다.
분석부(210)는 문장을 각 모듈(211 내지 218)에 따른 입력 데이터로 처리하고, 처리된 입력 데이터를 각 모듈(211 내지 218)에 입력한다.
예컨대, 분석부(210)는 각 모듈(211 내지 218)을 이용하여 문장을 세분화하여 분석하기에 앞서, 확률적 모델(Probabilistic Model), 판별 모델(Discriminative Model) 등을 사용하여 문장을 각 모듈(211 내지 218)에 따른 입력 데이터로 처리(분류)한다.
각 모듈(211 내지 218)은 입력 데이터를 세부분석하여 세부분석결과 및 세부분석결과에 대응되는 신뢰도 값을 출력한다.
분석부(210)는 각 모듈(211 내지 218)에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 출력한 모듈에 입력된 입력 데이터를 식별항목 단위입력에 대응시켜 저장한다.
예컨대, 구문 분석 모듈(215)이 입력 데이터 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요"에 대해 구문 분석을 수행하고, 어절 "나오는"과 어절 "노래"가 연결된 것으로 구문분석결과를 출력한다고 가정한다.
여기서 "나오는" 어절은 "나이틀리의" 어절을 수식하고, "노래" 어절도 수식하는 것이므로, 구문 분석 모듈(215)이 "나오는" 어절이 "노래" 어절과 연결된다("나오는-노래")는 구문분석결과를 출력하고, 출력된 구문분석결과의 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 경우, 분석부(210)는 입력 데이터 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요"를 식별항목 단위입력에 대응시켜 저장한다.
분석부(210)는 각 모듈(211 내지 218)에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 식별항목 단위 결과에 대응시켜 저장한다.
예컨대, 구문 분석 모듈(215)이 입력 데이터 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요"에 대해 구문 분석을 수행하고, 어절 "나오는"과 어절 "노래"가 연결된 것으로 구문분석결과를 출력한다고 가정한다.
여기서 "나오는" 어절은 "나이틀리의" 어절을 수식하고, "노래" 어절도 수식하는 것이므로, 구문 분석 모듈(215)이 "나오는" 어절이 "노래" 어절과 연결된다("나오는-노래")는 구문분석결과를 출력하고, 출력된 구문분석결과의 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 경우, 분석부(210)는"나오는" 어절이 "노래" 어절과 연결된다("나오는-노래")는 구문분석결과를 식별항목 단위 결과에 대응시켜 저장한다.
분석부(210)는 각 모듈(211 내지 218)에 의해 출력된 세부분석결과에 대응되는 신뢰도 값 중 기설정된 신뢰도 값 보다 낮은 신뢰도 값을 식별항목 신뢰도에 대응시켜 저장한다.
분석부(210)는 각 모듈(211 내지 218)을 이용하여 문장을 세분화하여 분석한 세부분석결과 중 자동 업데이트를 위해 필요한 정보를 식별항목 리저브에 대응시켜 저장한다.
예컨대, 분석부(210)는 각 모듈(211 내지 218)을 이용하여 문장을 세분화하여 분석한 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과에 대한 자동 업데이트를 위해 필요한 정보를 식별항목 리저브에 대응시켜 저장한다.
전술한 바와 같이, 분석부(210)는 각 모듈(211 내지 218)에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 세부분석결과에 관련된 정보를 룩업 테이블을 이용하여 언어분석 메타데이터로 저장한다.
판단부(230)는 분석부(210)에 의해 룩업 테이블을 이용하여 저장된 언어분석 메타데이터 중 재분석되어야 하는 언어분석 메타데이터를 선별한다. 판단부(230)는 선별된 언어분석 메타데이터의 재분석을 분석부(210)에 요청한다.
이하, 판단부(230)가 지속적으로 증가하는 언어분석 리소스(100) 및 저장부(300)에 저장된 언어분석 메타데이터를 이용하여 재분석되어야 하는 언어분석 메타데이터를 선별하고, 재분석을 요청하며, 재분석된 결과에 따른 언어분석결과를 업데이트하는 과정을 설명한다.
검출부(220)는 지속적 증가에 따른 언어지식 리소스(100)의 언어지식 축적을 검출하고, 검출된 결과정보를 판단부(230)에 전달한다.
예컨대, 검출부(220)는 언어지식 리소스(100)의 일별, 분야별 엔트리 증가량을 검출하고, 언어지식 리소스(100)에 새롭게 추가된 어휘(개체명 및 어휘 망, 관계 어휘 등) 등을 검출한다. 검출부(220)는 검출된 정보를 판단부(230)에 전달한다.
판단부(230)는 검출부(220)로부터 전달된 검출 정보를 기반으로 재분석할 언어분석 메타데이터를 선별한다.
즉, 판단부(230)는 언어지식 리소스(100)에 추가된 언어지식을 이용하여 저장부(300)에 저장된 언어분석 메타데이터 중 현재시점에서 더 정확하게 분석 가능한(업데이트가 필요한) 언어분석 메타데이터를 선별한다.
판단부(230)는 업데이트가 필요하다고 선별된 언어분석 메타데이터를 언어지식 리소스(100)에 새롭게 추가된 언어지식을 이용하여 테스트한다. 판단부(230)는 테스트된 결과에 따라 업데이트가 필요하다고 선별된 언어분석 메타데이터에 대한 재분석 여부를 결정한다. 판단부(230)는 재분석으로 결정된 언어분석 메타데이터에 대한 재분석을 분석부(210)에 요청한다.
분석부(210)는 판단부(230)의 의해 재분석이 요청된 언어분석 메타데이터에 대해 언어지식 리소스(100)에 추가된 언어지식을 이용하여 재분석을 수행하고, 재분석결과를 판단부(230)에 전달한다.
판단부(230)는 저장된 언어분석결과 중 재분석된 언어분석 메타데이터에 대응되는 언어분석결과를 분석부(210)로부터 전달된 재분석결과를 기반으로 업데이트한다.
이하, 재분석할 언어분석 메타데이터 선별 및 선별된 언어분석 메타데이터에 대한 재분석 과정을 좀더 구체적으로 설명한다.
검출부(220)는 지속적으로 지식이 축적되는 언어지식 리소스(100)로부터 일별, 분야별 리소스 증가 통계 정보 및 새롭게 추가된 어휘 정보를 검출한다. 검출부(220)는 검출된 일별, 분야별 리소스 증가 통계 정보 및 새롭게 추가된 어휘 정보를 판단부(230)에 전달한다.
판단부(230)는 검출부(220)로부터 전달된 언어지식 리소스(100)의 일별, 분야별 리소스 증가 통계 정보 및 언어지식 리소스(100)에 새롭게 추가된 어휘 정보를 기반으로 저장된 언어분석 메타데이터 중 재분석 여부를 결정하기 위한 테스트 대상으로서의 언어분석 메타데이터를 선별한다.
예컨대, 판단부(230)는 검출부(220)로부터 전달된 일별, 분야별 리소스 증가 통계 정보를 기반으로 저장된 언어분석 메타데이터의 타임스탬프 정보 및 도메인 정보에 대해 일별, 분야별로 통계분석을 수행한다.
즉, 판단부(230)는 저장된 언어분석 메타데이터 중 타임 스탬프 정보(언어분석 수행 시간 정보)가 현재시점을 기준으로 바로 이전시점인 경우의 언어분석 메타데이터를 선별한다. 판단부(230)는 선별된 언어분석 메타데이터 중 도메인 정보(문서 분야 정보)의 언어지식 증가 값[언어지식 리소스(100)의 일별, 분야별 리소스 증가 값]이 기설정된 임계치 이상인 언어분석 메타데이터를 다시 선별한다. 판단부(230)는 다시 선별된 언어분석 메타데이터를 재분석 여부 결정을 위한 테스트 대상으로 지정한다.
또한, 판단부(230)는 검출부(220)로부터 전달된 언어지식 리소스(100)에 새롭게 추가된 어휘 정보를 기반으로 언어분석 메타데이터의 태그 정보(어휘 정보)를 분석한다.
즉, 판단부(230)는 저장된 언어분석 메타데이터 중 타임 스탬프 정보(언어분석 수행 시간 정보)가 현재시점을 기준으로 바로 이전시점인 경우의 언어분석 메타데이터를 선별한다. 판단부(230)는 선별된 언어분석 메타데이터 중 태그 정보의 언어지식 증가 값[언어지식 리소스(100)에 새로게 추가된 어휘 정보의 증가 값]이 기설정된 임계치 이상인 언어분석 메타데이터를 다시 선별한다. 판단부(230)는 다시 선별된 언어분석 메타데이터도 재분석 여부 결정을 위한 테스트 대상으로 지정한다.
판단부(230)는 테스트 대상으로 지정된 언어분석 메타데이터의 처리모듈 정보, 단위입력 정보, 단위결과 정보 및 신뢰도 정보를 기반으로 재분석 여부를 결정하는 테스트를 수행한다.
전술한 바를 위해 판단부(230)는 분석부(210)에 테스트 대상으로 지정된 언어분석 메타데이터의 처리모듈 정보를 이용한 단위입력 정보(입력 데이터)에 대한 테스트를 요청한다.
예컨대, 판단부(230)는 분석부(210)에 테스트 대상으로 지정된 언어분석 메타데이터의 구문 분석 모듈(215)을 이용한 입력 데이터 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요"에 대한 테스트를 요청한다.
분석부(210)는 지속적 증가에 따라 언어지식이 축적된 언어지식 리소스(100)를 이용하여 판단부(230)의 요청에 따라 테스트 대상으로 지정된 언어분석 메타데이터의 입력 데이터에 대해 처리모듈을 통해 테스트를 수행한다.
예컨대, 분석부(210)는 판단부(230)의 요청에 따라 구문 분석 모듈(215)이 지속적 증가에 따라 언어지식이 축적된 언어지식 리소스(100)를 이용하여 입력 데이터 "비긴 어게인에 나오는 키이라 나이틀리의 노래 너무 좋아요"에 대해 테스트(구문분석)하도록 한다.
분석부(210)는 테스트 대상으로 지정된 언어분석 메타데이터의 단위입력 정보를 처리모듈 정보를 이용하여 테스트하고, 테스트 결과 및 테스트 결과에 대응되는 신뢰도 값을 판단부(230)에 전달한다.
판단부(230)는 분석부(210)로부터 전달된 테스트결과 정보와 테스트 대상으로 지정된 언어분석 메타데이터의 단위결과 정보를 비교한다.
비교결과, 분석부(210)로부터 전달된 테스트결과 정보와 테스트 대상으로 지정된 언어분석 메타데이터의 단위결과 정보가 불일치하면, 판단부(230)는 t-test 등과 같은 통계 검증 방법을 이용하여 테스트결과 정보에 대응되는 신뢰도 값과 테스트 대상으로 지정된 언어분석 메타데이터의 신뢰도 정보(신뢰도 값)가 통계적으로 기설정된 유의미한 범위 내에 있는지 여부를 검사한다.
판단부(230)는 검사결과, 테스트결과 정보에 대응되는 신뢰도 값과 테스트 대상으로 지정된 언어분석 메타데이터의 신뢰도 값이 통계적으로 기설정된 유의미한 범위 밖에 있는 경우, 테스트 대상으로 지정된 언어분석 메타데이터를 재분석하는 것으로 결정한다. 판단부(230)는 재분석으로 결정된 언어분석 메타데이터에 대해 처리모듈 이후의 언어분석과정을 재수행하도록 분석부(210)에 요청한다.
예컨대, 판단부(230)는 구문 분석 모듈(215), 의미 분석 모듈(216), 상호참조 분석 모듈(217) 및 생략 복원 모듈(218)을 이용하여 테스트 대상으로 지정된 언어분석 메타데이터에 대해 언어분석을 재수행하도록 분석부(210)에 요청한다.
분석부(210)는 판단부(230)로부터 언어분석 재수행을 요청받은 언어분석 메타데이터에 대해 처리모듈 이후의 언어분석과정을 재수행한다.
예컨대, 분석부(210)는 언어분석 재수행을 요청받은 언어분석 메타데이터에 대 구문 분석 모듈(215), 의미 분석 모듈(216), 상호참조 분석 모듈(217) 및 생략 복원 모듈(218)을 통한 언어분석을 재수행한다.
분석부(210)는 재수행된 언어분석결과를 판단부(230)에 전달한다.
판단부(230)는 저장부(300)에 저장된 언어분석결과 중 언어분석이 재수행된 언어분석 메타데이터에 대응되는 언어분석결과를 분석부(210)에 의해 재수행된 언어분석결과를 기반으로 업데이트한다.
전술한 바와 같이, 본 발명에 따르면, 대용량 문서에 대한 기분석된 언어분석 결과에서 부정확하게 분석된 부분 및 신규로 추가된 언어지식을 기반으로(지식베이스 확장에 따른) 더 정확하게 분석할 수 있는 부분을 탐색하여 더욱 정확한 언어분석 결과로 업데이트할 수 있어서 대용량 문서 전체를 다시 분석하지 않아도 향상된 분석기의 성능을 기분석된 언어분석결과에 반영할 수 있는 효과가 있다. 특히 기분석된 언어분석결과 중 더 정확하게 분석할 수 있는 부분만 탐색하여 분석할 수 있기 때문에 언어분석을 효율적으로 할 수 있는 이점이 있다. 또한, 실시간으로 증가하는 언어지식 베이스의 지식을 이용할 수 있어서 언어분석결과를 실시간으로 향상시킬 수 있는 효과가 있다.
이하, 도 3을 참조하여 본 발명의 일 실시예에 따른 언어분석결과 업데이트 방법을 설명한다. 도 3은 본 발명의 일 실시예에 따른 언어분석결과 업데이트 방법을 나타내 흐름도이다.
도 3에 도시된 바와 같이, 언어지식 리소스를 이용하여 웹, 도서 등과 같은 일반 텍스트가 포함된 문서에 대해 언어분석을 수행한다(S300).
예컨대, 웹, 도서 등과 같은 일반 텍스트를 문장으로 분리한다. 일반 텍스트가 분리된 문장에서 명사, 동사, 조사 등의 형태소를 분석한다. 형태소가 분석된 문장에서 동음이의어 및 다의어의 중의성 해소를 위해 어휘의미를 분석한다. 어휘의미가 분석된 문장에서 언어지식 리소스를 이용하여 영화명, 지명 등 고유 개체를 가리키는 명사구(개체명)를 분석한다. 개체명이 분석된 문장에서 어휘 간의 구조적(연결) 관계를 분석한다. 어휘 간의 연결 관계가 분석된 문장에서 표현 의미 정보를 분석한다(SRL: Semantic Role Labeling). 표현 의미 정보가 분석된 문장에서 문장 내, 문장 간 동일 대상을 가리키는 표현을 분석한다. 문장 내, 문장 간 동일 대상을 가리키는 표현이 분석된 문장에서 생략 성분을 인식하고 생략 성분을 복원한다.
전술한 바와 같이, 웹, 도서 등과 같은 일반 텍스트(문장)가 포함된 문서에 대해 언어분석을 세분화하여 처리 단계별로 수행하고, 언어분석결과를 저장한다. 또한 저장된 언어분석결과에 대한 업데이트 여부 판단시 사용할 언어분석 메타데이터를 저장한다(S301).
예컨대, 타임스탬프, 언어분석 버전, 문서ID, 도메인, 문장ID, 원문, 태그, 처리 단계, 단위입력, 단위결과, 신뢰도 및 리저브를 식별항목으로 하는 룩업 테이블을 작성한다. 작성된 룩업 테이블을 이용하여 언어분석 메타데이터를 저장한다.
즉, 웹, 도서 등과 같은 일반 텍스트(문장)가 포함된 문서에 대한 언어분석 수행 시간 정보를 식별항목 타임 스탬프에 대응시켜 저장한다. 분석 버전 정보를 식별항목 언어분석 버전에 대응시켜 저장한다. 분석을 수행할 문서의 고유 ID를 식별항목 문서 ID에 대응시켜 저장한다. 선행기술인 자동 문서 분류 기술을 이용하고, 언어지식 리소스의 하이어라키와 호환 가능한 도메인 분류를 사용하여 문서의 분야(영화, 음악, 스포츠, 자동차 등)를 분류한다. 분류된 문서 분야 정보를 식별항목 도메인에 대응시켜 저장한다. 문장의 고유 ID를 식별항목 문장 ID에 대응시켜 저장한다. 문장 원문 정보를 식별항목 원문에 대응시켜 저장한다. 문장에 포함된 개체명 및 문서 내에서 빈도수가 기설정된 빈도수 보다 낮은 단어를 식별항목 태그에 대응시켜 저장한다. 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 출력한 처리 단계 정보를 식별항목 처리단계에 대응시켜 저장한다. 문장을 각 처리 단계에 따른 입력 데이터로 처리하고, 처리된 입력 데이터를 각 처리 단계에 입력한다. 각 처리 단계는 입력 데이터를 세부분석하여 세부분석결과 및 세부분석결과에 대응되는 신뢰도 값을 출력한다. 각 처리 단계에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 출력한 처리 단계에 입력된 입력 데이터를 식별항목 단위입력에 대응시켜 저장한다. 각 처리 단계에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 신뢰도 값에 대응되는 세부분석결과를 식별항목 단위 결과에 대응시켜 저장한다. 각 처리 단계에 의해 출력된 세부분석결과에 대응되는 신뢰도 값 중 기설정된 신뢰도 값 보다 낮은 신뢰도 값을 식별항목 신뢰도에 대응시켜 저장한다. 각 처리 단계를 이용하여 문장을 세분화하여 분석한 세부분석결과 중 자동 업데이트를 위해 필요한 정보를 식별항목 리저브에 대응시켜 저장한다.
전술한 바와 같이, 각 처리 단계에 의해 출력된 세부분석결과 중 신뢰도 값이 기설정된 신뢰도 값 보다 낮은 세부분석결과에 따른 정보를 룩업 테이블을 이용하여 언어분석 메타데이터로 저장한다.
지속적 증가에 따른 언어지식 리소스의 언어지식 축적 여부를 판단한다(S302).
판단결과, 언어지식 리소스의 언어지식이 축적된 것으로 판단되면, 언어지식이 축적된 언어지식 리소스로부터 일별, 분야별 리소스 증가 통계 정보 및 새롭게 추가된 어휘 정보를 검출한다.
검출된 일별, 분야별 리소스 증가 통계 정보 및 새롭게 추가된 어휘 정보를 기반으로 저장된 언어분석 메타데이터 중 재분석 여부를 결정하기 위한 테스트 대상으로서의 언어분석 메타데이터를 선별한다(S303).
예컨대, 저장된 언어분석 메타데이터의 타임스탬프 정보 및 도메인 정보에 대해 검출된 일별, 분야별 리소스 증가 통계 정보를 기반으로 일별, 분야별로 통계분석을 수행한다.
즉, 저장된 언어분석 메타데이터 중 타임 스탬프 정보(언어분석 수행 시간 정보)가 현재시점을 기준으로 바로 이전시점인 경우의 언어분석 메타데이터를 선별한다. 선별된 언어분석 메타데이터 중 도메인 정보(문서 분야 정보)의 언어지식 증가 값[언어지식 리소스의 일별, 분야별 리소스 증가 값]이 기설정된 임계치 이상인 언어분석 메타데이터를 다시 선별한다. 다시 선별된 언어분석 메타데이터를 재분석 여부 결정을 위한 테스트 대상으로 지정한다.
또한, 검출된 언어지식 리소스에 새롭게 추가된 어휘 정보를 기반으로 언어분석 메타데이터의 태그 정보(어휘 정보)를 분석한다.
즉, 저장된 언어분석 메타데이터 중 타임 스탬프 정보(언어분석 수행 시간 정보)가 현재시점을 기준으로 바로 이전시점인 경우의 언어분석 메타데이터를 선별한다. 선별된 언어분석 메타데이터 중 태그 정보의 언어지식 증가 값[언어지식 리소스에 새로게 추가된 어휘 정보의 증가 값]이 기설정된 임계치 이상인 언어분석 메타데이터를 다시 선별한다. 다시 선별된 언어분석 메타데이터도 재분석 여부 결정을 위한 테스트 대상으로 지정한다.
테스트 대상으로 지정된 언어분석 메타데이터의 처리 단계 정보, 단위입력 정보, 단위결과 정보 및 신뢰도 정보를 기반으로 재분석 여부 결정을 위한 테스트를 수행한다(S304).
전술한 바를 위해 테스트 대상으로 지정된 언어분석 메타데이터의 처리 단계정보를 이용하여 단위입력 정보(입력 데이터)에 대한 테스트를 수행한다.
예컨대, 지속적 증가에 따라 언어지식이 축적된 언어지식 리소스를 이용하여 테스트 대상으로 지정된 언어분석 메타데이터의 단위입력 정보(입력 데이터)에 대해 처리 단계 정보를 이용하여 테스트를 수행한다.
테스트결과 정보와 테스트 대상으로 지정된 언어분석 메타데이터의 단위결과 정보를 비교한다(S305).
비교결과, 전달된 테스트결과 정보와 테스트 대상으로 지정된 언어분석 메타데이터의 단위결과 정보가 불일치하면, t-test 등과 같은 통계 검증 방법을 이용하여 테스트결과 정보에 대응되는 신뢰도 값과 테스트 대상으로 지정된 언어분석 메타데이터의 신뢰도 정보(신뢰도 값)가 통계적으로 기설정된 유의미한 범위 내에 있는지 여부를 검사한다.
검사결과, 테스트결과 정보에 대응되는 신뢰도 값과 테스트 대상으로 지정된 언어분석 메타데이터의 신뢰도 값이 통계적으로 기설정된 유의미한 범위 밖에 있는 경우, 테스트 대상으로 지정된 언어분석 메타데이터를 재분석하는 것으로 결정한다.
재분석하는 것으로 결정된 언어분석 메타데이터의 처리 단계 이후의 언어분석과정을 재수행한다(S306).
저장된 언어분석결과 중 재분석된 언어분석 메타데이터에 대응되는 언어분석결과를 재수행된 언어분석결과를 기반으로 업데이트한다(S307).
이상 바람직한 실시예와 첨부도면을 참조하여 본 발명의 구성에 관해 구체적으로 설명하였으나, 이는 예시에 불과한 것으로 본 발명의 기술적 사상을 벗어나지 않는 범주내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
100 : 언어지식 리소스 200 : 엡데이트부
210 : 분석부 220 : 검출부
230 : 판단부 300 : 저장부

Claims (20)

  1. 언어분석결과 및 상기 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 저장부; 및
    언어지식 리소스에 추가된 언어지식을 기반으로 상기 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 상기 언어분석결과를 업데이트하는 업데이트부를 포함하되,
    상기 업데이트부는 언어분석 수행에 따라 획득된 상기 언어분석결과 중 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인 경우, 상기 신뢰도 값이 기설정된 신뢰도 값 이하인 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 상기 저장부에 저장하는 언어분석결과 업데이트 장치.
  2. 제1항에 있어서,
    상기 언어분석 메타데이터는 타임스탬프 정보, 언어분석 버전 정보, 문서ID 정보, 도메인 정보, 문장ID 정보, 원문 정보, 태그 정보, 처리모듈 정보, 단위입력 정보, 단위결과 정보, 신뢰도 정보 및 리저브 정보 중 적어도 하나를 포함하는 것
    인 언어분석결과 업데이트 장치.
  3. 제2항에 있어서, 상기 업데이트부는,
    상기 언어지식 리소스에 언어지식 추가가 확인되면, 추가된 언어지식을 기반으로 리소스 증가 통계 정보 및 추가 어휘 정보를 검출하는 검출부;
    상기 검출부에 의해 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 저장된 상기 언어분석 메타데이터 중 재분석될 언어분석 메타데이터를 선별하는 판단부; 및
    선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 분석부
    를 포함하는 언어분석결과 업데이트 장치.
  4. 제3항에 있어서,
    상기 업데이트부는 저장된 언어분석 메타데이터 중 상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 도메인 정보 또는 태그 정보의 증가 값이 기설정된 증가 값 이상인 언어분석 메타데이터를 선별하는 것
    인 언어분석결과 업데이트 장치.
  5. 제4항에 있어서,
    상기 업데이트부는 선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하고, 세부분석 수행에 따른 세부분석결과 정보와 및 신뢰도 정보를 출력하는 것
    인 언어분석결과 업데이트 장치.
  6. 제5항에 있어서,
    상기 업데이트부는 상기 분석부에 의해 출력된 상기 세부분석결과 정보와 선별된 언어분석 메타데이터의 단위결과 정보를 비교하고, 비교결과 상기 세부분석결과 정보와 상기 단위결과 정보가 일치하지 않으면, 상기 분석부에 의해 출력된 상기 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하는지 여부를 판단하는 것
    인 언어분석결과 업데이트 장치.
  7. 제6항에 있어서,
    상기 업데이트부는 판단결과 출력된 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하지 않으면, 선별된 언어분석 메타데이터의 처리모듈 정보에 포함된 처리모듈부터 추가된 상기 언어지식을 이용하여 선별된 언어분석 메타데이터에 대한 세부분석을 재수행하는 것
    인 언어분석결과 업데이트 장치.
  8. 제7항에 있어서,
    상기 업데이트부는 선별된 언어분석 메타데이터에 대한 세부분석 재수행에 따른 재분석결과를 기반으로 저장된 상기 언어분석결과 중 선별된 언어분석 메타데이터에 대응되는 언어분석결과를 업데이트하는 것
    인 언어분석결과 업데이트 장치.
  9. 삭제
  10. 제1항에 있어서, 상기 저장부는,
    상기 언어분석결과를 저장하는 언어분석결과 저장영역; 및
    상기 언어분석 메타데이터를 저장하는 언어분석 메타데이터 저장영역을 포함하는 것
    인 언어분석결과 업데이트 장치.
  11. 언어분석결과 업데이트 장치에 의해 수행되는 언어분석결과 업데이트 방법에 있어서,
    언어분석결과 및 상기 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 단계; 및
    언어지식 리소스에 추가된 언어지식을 기반으로 상기 언어분석 메타데이터를 재분석하고, 재분석결과를 기반으로 상기 언어분석결과를 업데이트하는 단계를 포함하되,
    상기 언어분석 메타데이터를 저장하는 단계는,
    언어분석 수행에 따라 획득된 상기 언어분석결과 중 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인지 여부를 판단하는 단계; 및
    판단결과, 상기 언어분석결과에 대응되는 신뢰도 값이 기설정된 신뢰도 값 이하인 경우, 상기 신뢰도 값이 기설정된 신뢰도 값 이하인 언어분석결과의 업데이트에 사용될 언어분석 메타데이터를 저장하는 단계를 포함하는 언어분석결과 업데이트 방법.
  12. 제11항에 있어서,
    상기 언어분석 메타데이터는 타임스탬프 정보, 언어분석 버전 정보, 문서ID 정보, 도메인 정보, 문장ID 정보, 원문 정보, 태그 정보, 처리모듈 정보, 단위입력 정보, 단위결과 정보, 신뢰도 정보 및 리저브 정보 중 적어도 하나를 포함하는 것
    인 언어분석결과 업데이트 방법.
  13. 제12항에 있어서, 상기 업데이트하는 단계는,
    상기 언어지식 리소스에 언어지식 추가가 확인되면, 추가된 언어지식을 기반으로 리소스 증가 통계 정보 및 추가 어휘 정보를 검출하는 단계;
    상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 저장된 상기 언어분석 메타데이터 중 재분석될 언어분석 메타데이터를 선별하는 단계; 및
    선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 단계
    를 포함하는 언어분석결과 업데이트 방법.
  14. 제13항에 있어서, 상기 언어분석 메타데이터를 선별하는 단계는,
    저장된 언어분석 메타데이터 중 상기 검출된 리소스 증가 통계 정보 및 추가 어휘 정보를 기반으로 도메인 정보 또는 태그 정보의 증가 값이 기설정된 증가 값 이상인 언어분석 메타데이터를 선별하는 단계인 것
    인 언어분석결과 업데이트 방법.
  15. 제14항에 있어서, 상기 세부분석을 수행하는 단계는,
    선별된 언어분석 메타데이터의 처리모듈 정보를 이용하여 선별된 언어분석 메타데이터의 단위입력 정보에 대한 세부분석을 수행하는 단계; 및
    세부분석 수행에 따른 세부분석결과 정보와 및 신뢰도 정보를 출력하는 단계를 포함하는 것
    인 언어분석결과 업데이트 방법.
  16. 제15항에 있어서, 상기 세부분석을 수행하는 단계는,
    출력된 상기 세부분석결과 정보와 선별된 언어분석 메타데이터의 단위결과 정보를 비교하는 단계; 및
    비교결과 상기 세부분석결과 정보와 상기 단위결과 정보가 일치하지 않으면, 분석부에 의해 출력된 상기 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하는지 여부를 판단하는 단계를 더 포함하는 것
    인 언어분석결과 업데이트 방법.
  17. 제16항에 있어서, 상기 세부분석을 수행하는 단계는,
    판단결과 출력된 신뢰도 정보와 선별된 언어분석 메타데이터의 신뢰도 정보가 기설정된 범위 내에 존재하지 않으면, 선별된 언어분석 메타데이터의 처리모듈 정보에 포함된 처리모듈부터 추가된 상기 언어지식을 이용하여 선별된 언어분석 메타데이터에 대한 세부분석을 재수행하는 단계를 더 포함하는 것
    인 언어분석결과 업데이트 방법.
  18. 제17항에 있어서, 상기 업데이트하는 단계는,
    선별된 언어분석 메타데이터에 대한 세부분석 재수행에 따른 재분석결과를 기반으로 저장된 상기 언어분석결과 중 선별된 언어분석 메타데이터에 대응되는 언어분석결과를 업데이트하는 단계인 것
    인 언어분석결과 업데이트 방법.
  19. 삭제
  20. 제11항에 있어서, 상기 언어분석 메타데이터를 저장하는 단계는,
    상기 언어분석결과를 언어분석결과 저장영역에 저장하는 단계; 및
    상기 언어분석 메타데이터를 언어분석 메타데이터 저장영역에 저장하는 단계를 포함하는 것
    인 언어분석결과 업데이트 방법.
KR1020140162397A 2014-11-20 2014-11-20 언어분석결과 업데이트 장치 및 방법 KR102069698B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140162397A KR102069698B1 (ko) 2014-11-20 2014-11-20 언어분석결과 업데이트 장치 및 방법
US14/932,425 US20160147739A1 (en) 2014-11-20 2015-11-04 Apparatus and method for updating language analysis result

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162397A KR102069698B1 (ko) 2014-11-20 2014-11-20 언어분석결과 업데이트 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160060820A KR20160060820A (ko) 2016-05-31
KR102069698B1 true KR102069698B1 (ko) 2020-02-12

Family

ID=56010384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162397A KR102069698B1 (ko) 2014-11-20 2014-11-20 언어분석결과 업데이트 장치 및 방법

Country Status (2)

Country Link
US (1) US20160147739A1 (ko)
KR (1) KR102069698B1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR20180040185A (ko) 2016-10-11 2018-04-20 삼성디스플레이 주식회사 표시 장치
WO2018165579A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325107A1 (en) 2008-02-22 2010-12-23 Christopher Kenton Systems and methods for measuring and managing distributed online conversations
US20120047219A1 (en) 2010-08-18 2012-02-23 At&T Intellectual Property I, L.P. Systems and Methods for Social Media Data Mining

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768580A (en) * 1995-05-31 1998-06-16 Oracle Corporation Methods and apparatus for dynamic classification of discourse
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
US9055093B2 (en) * 2005-10-21 2015-06-09 Kevin R. Borders Method, system and computer program product for detecting at least one of security threats and undesirable computer files
US8762130B1 (en) * 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US9449080B1 (en) * 2010-05-18 2016-09-20 Guangsheng Zhang System, methods, and user interface for information searching, tagging, organization, and display
US9146917B2 (en) * 2011-07-15 2015-09-29 International Business Machines Corporation Validating that a user is human
KR20130113000A (ko) * 2012-04-05 2013-10-15 한국전자통신연구원 언어 처리 장치 및 그 방법
KR101907041B1 (ko) * 2012-12-17 2018-10-11 한국전자통신연구원 소셜 웹 콘텐츠에서의 예측 기반 리스크 관리 장치 및 그 방법
US9350747B2 (en) * 2013-10-31 2016-05-24 Cyberpoint International Llc Methods and systems for malware analysis
US9984067B2 (en) * 2014-04-18 2018-05-29 Thomas A. Visel Automated comprehension of natural language via constraint-based processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325107A1 (en) 2008-02-22 2010-12-23 Christopher Kenton Systems and methods for measuring and managing distributed online conversations
US20120047219A1 (en) 2010-08-18 2012-02-23 At&T Intellectual Property I, L.P. Systems and Methods for Social Media Data Mining

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. Carlson et al., Coupled semi-supervised learning for information extraction, WSDM '10 Proc. of the 3rd ACM int. conf. on Web search and data mining, pp.101-110 (2010)
A. Carlson et al., Toward an Architecture for Never-Ending Language Learning, Proc. of the 24th AAAI Conference on AI and the 22nd IAAI, pp.1306-1313, (2010.) 1부.*

Also Published As

Publication number Publication date
KR20160060820A (ko) 2016-05-31
US20160147739A1 (en) 2016-05-26

Similar Documents

Publication Publication Date Title
KR102069698B1 (ko) 언어분석결과 업데이트 장치 및 방법
US10585924B2 (en) Processing natural-language documents and queries
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
CN104850554B (zh) 一种搜索方法和系统
US11521603B2 (en) Automatically generating conference minutes
US10642928B2 (en) Annotation collision detection in a question and answer system
US20100070261A1 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US10579739B2 (en) Method and system for identifying places of interest in a natural language input
Marujo et al. Keyphrase cloud generation of broadcast news
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
US10936806B2 (en) Document processing apparatus, method, and program
KR101851790B1 (ko) 질문 데이터 세트 확장 장치 및 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US8204736B2 (en) Access to multilingual textual resources
CA2878891A1 (en) Weight-based stemming for improving search quality
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US11947530B2 (en) Methods and systems to automatically generate search queries from software documents to validate software component search engines
Hakkani-Tür et al. Translating natural language utterances to search queries for slu domain detection using query click logs
Rofiq Indonesian news extractive text summarization using latent semantic analysis
Linhares Pontes et al. Cross-lingual speech-to-text summarization
KR101274571B1 (ko) 콘텐츠를 검색하는 방법 및 장치
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right