KR102479163B1 - 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법 - Google Patents

어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법 Download PDF

Info

Publication number
KR102479163B1
KR102479163B1 KR1020200010994A KR20200010994A KR102479163B1 KR 102479163 B1 KR102479163 B1 KR 102479163B1 KR 1020200010994 A KR1020200010994 A KR 1020200010994A KR 20200010994 A KR20200010994 A KR 20200010994A KR 102479163 B1 KR102479163 B1 KR 102479163B1
Authority
KR
South Korea
Prior art keywords
meaning
similarity
data
text
lemma
Prior art date
Application number
KR1020200010994A
Other languages
English (en)
Other versions
KR20210097374A (ko
Inventor
김소정
Original Assignee
(주)나라지식정보
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)나라지식정보 filed Critical (주)나라지식정보
Priority to KR1020200010994A priority Critical patent/KR102479163B1/ko
Publication of KR20210097374A publication Critical patent/KR20210097374A/ko
Application granted granted Critical
Publication of KR102479163B1 publication Critical patent/KR102479163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

본 문서에 개시되는 일 실시 예에 따른 다의어의 의미 추출 장치는 외부와 통신하도록 구성된 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 사전 데이터베이스에 기초하여 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득하고, 거리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어와 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리 데이터를 획득하고, 글로서리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어들 사이의 유사도를 포함하는 유사도 데이터를 획득하고, 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별할 수 있다.

Description

어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING SENSE OF POLYSEMY USING LEXICAL RELATION AND GLOSSARY GRAPH}
본 문서에서 개시되는 실시 예들은 자연어 처리에 있어서 다의어 및 동음어의 의미를 결정하는 장치 및 방법과 관련된다.
우리말에서 그 철자는 동일하나 복수의 의미를 갖는 다의어 및 동음어 등과 같은 단어가 존재한다. 예를 들어, 단어 “화상”은 “화면에 나타나는 상”이라는 의미 및 “고온에 의한 피부의 손상”이라는 의미 등과 같은 15개의 의미를 가질 수 있다. 다른 예를 들면, 단어 “입다”는 “옷을 두르다”라는 의미 및 “도움을 받거나 손해를 당하다”라는 의미 등을 가질 수 있다.
자연어 처리에 있어서, 다의어 및 동음어의 의미를 파악하는 것은 매우 중요한 작업에 해당한다. 예를 들어, 문장 “텔레비전 화상이 선명하지 못했다.”에서, 단어 “화상”은 “화면에 나타나는 상”이라는 의미로 처리되어야 하고, 단어 “선명”은 “산뜻하고 뚜렷하여 다른 것과 혼동되지 않음”이라는 의미로 처리되어야 한다. 다른 예를 들면, 문장 “다락방에 불이 나 심한 화상을 입었다”에서, 단어 “화상”은 “고온에 의한 피부의 손상”이라는 의미로 처리되어야 하고, “입다”는 “도움을 받거나 손해를 당하다”라는 의미로 처리되어야 한다.
현재 구현된 다양한 방식의 자연어 처리에서는 상술한 다의어 및 동음어의 의미를 정확히 판단하는데 어려움을 겪고 있다. 또한, 다의어 및 동음어의 의미를 판단하기 위해 국어사전 데이터베이스를 이용하는 경우, 그 국어사전 데이터베이스에서 표제어에 대한 뜻풀이에도 다의어 및 동음어가 사용되고 있고, 그 의미가 정의되어 있지 않아 이용에 어려움이 있다. 예를 들어, 표제어 “화상”의 경우 그 뜻풀이가 “높은 온도의 기체, 액체, 고체, 화염 따위에 데었을 때에 일어나는 피부의 손상”으로 기술되어 있는데, 여기서 단어 “피부”는 동음어로서 “식물 따위의 껍질을 이루는 부분”이라는 의미, 및 “척추동물의 몸을 싸고 있는 조직”이라는 의미 등을 가진다. 따라서, 자연어 처리에 있어 다의어 및 동음어의 의미를 정확히 판단하기 위한 새로운 방법이 요구된다.
본 발명의 실시 예들은, 사전 데이터베이스를 이용하여 다의어 및 동음어의 의미를 정확하게 판별할 수 있는 장치 및 방법을 제공하기 위한 것이다.
본 문서에 개시되는 일 실시 예에 따른 다의어의 의미 추출 장치는 외부와 통신하도록 구성된 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 사전 데이터베이스에 기초하여 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득하고, 거리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어와 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리(glossary) 데이터를 획득하고, 글로서리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어들 사이의 유사도를 포함하는 유사도 데이터를 획득하고, 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별할 수 있다.
일 실시 예에 따르면, 거리는 다의어 표제어와 다른 표제어 사이에 연결된 유의어, 반의어, 상위어 또는 하위어의 수에 기초하여 결정될 수 있다.
일 실시 예에 따르면, 프로세서는 뜻풀이 텍스트에 포함된 단어가 다의어에 해당하는 경우, 표제어와 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어들 사이의 거리에 기초하여 뜻풀이 텍스트에 포함된 단어의 의미를 식별하고, 표제어와 식별된 의미에 대응하는 표제어를 연결할 수 있다.
일 실시 예에 따르면, 프로세서는 통신 회로를 이용하여 분석 대상 텍스트를 획득할 수 있다.
일 실시 예에 따르면, 프로세서는 분석 대상 텍스트에 포함된 단어들의 원형을 획득할 수 있다.
일 실시 예에 따르면, 프로세서는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어와 다른 단어 사이의 유사도를 산출하고, 산출된 유사도에 기초하여 다의어의 의미를 식별할 수 있다.
일 실시 예에 따르면, 프로세서는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어와 다른 단어 각각 사이의 유사도를 각각 산출하고, 산출된 유사도의 합에 기초하여 다의어의 의미를 식별할 수 있다.
일 실시 예에 따르면, 프로세서는 분석 대상 텍스트에 포함된 다의어의 의미가 식별된 후, 분석 대상 텍스트에 포함된 다른 다의어와 다의어 사이의 유사도를 산출하고, 다른 다의어와 다의어 사이의 유사도에 기초하여 다른 다의어의 의미를 식별할 수 있다.
일 실시 예에 따르면, 프로세서는 분석 대상 텍스트에 포함된 다의어의 의미가 식별된 후, 분석 대상 텍스트에 포함된 다른 다의어와 다른 단어 사이의 유사도를 산출하고, 다른 다의어와 다른 단어 사이의 유사도에 기초하여 다른 다의어의 의미를 식별할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 다의어의 의미 추출 방법은 사전 데이터베이스에 기초하여 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득하는 단계, 거리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어와 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리 데이터를 획득하는 단계, 글로서리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어들 사이의 유사도를 포함하는 유사도 데이터를 획득하는 단계, 및 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별하는 단계를 포함할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 표제어와 다른 표제어 사이의 어휘 관계 및 표제어와 표제어의 뜻풀이 사이의 연결 관계에 기초하여 산출되는 유사도를 활용함으로써, 자연어 처리 시 텍스트에 포함된 다의어 및 동음어의 의미를 정확하게 파악할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 일 실시 예에 따른 다의어의 의미 추출 장치의 동작 환경을 나타낸다.
도 2는 일 실시 예에 따른 다의어의 의미 추출 장치의 구성을 나타내는 블록도이다.
도 3은 일 실시 예에 따른 다의어의 의미 추출 장치에 입력되는 단어에 대한 예시적인 사전 검색 결과를 도시한다.
도 4는 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 거리 데이터를 도시한다.
도 5는 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 글로서리(glossary) 데이터를 도시한다.
도 6은 일 실시 예에 따른 다의어의 의미 추출 장치가 글로서리 그래프를 이용하여 유사도를 산출하는 예시적인 동작을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 다의어의 의미 추출 장치가 글로서리 그래프를 이용하여 유사도를 산출하는 예시적인 동작을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 유사도 데이터를 도시한다.
도 9는 일 실시 예에 따른 다의어의 의미 추출 장치에서 처리되는 분석 대상 텍스트에 포함된 다의어의 예시적인 유사도 값을 도시한다.
도 10은 일 실시 예에 따른 다의어의 의미 추출 장치에서 처리되는 분석 대상 텍스트에 포함된 다의어의 예시적인 유사도 값을 도시한다.
도 11은 일 실시 예에 따른 다의어의 의미 추출 장치에 의한 분석 대상 텍스트의 예시적인 처리 과정을 도시한다.
도 12는 일 실시 예에 따른 다의어의 의미 추출 방법을 설명하기 위한 흐름도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
도 1은 일 실시 예에 따른 다의어의 의미 추출 장치의 동작 환경을 나타낸다.
도 1을 참조하면, 일 실시 예에 따른 다의어의 의미 추출 장치는 서버(100)(100) 형태로 구현될 수 있다. 그러나, 이에 제한되지 않고, 다의어의 의미 추출 장치는 다양한 형태의 컴퓨팅 디바이스 중 하나로 구현될 수도 있다. 또한, 다의어의 의미 추출 장치는 도 1에 도시된 것과 같이 하나의 장치로 구현될 수도 있으나, 이에 제한되지 않고, 2 이상의 장치의 집합으로 구현될 수도 있다.
일 실시 예에 따른 서버(100)는 외부로부터 입력 텍스트(11)를 수신할 수 있다. 예를 들어, 서버(100)는 서버(100)는 사용자 단말 또는 다른 서버(100)로부터 입력 텍스트(11)를 수신할 수 있다. 입력 텍스트(11)는 복수의 의미를 갖는 단어인 다의어 및/또는 동음어(이하 본 문서에서는 설명의 편의를 위해 복수의 의미를 갖는 단어를 모두 다의어라 한다)를 포함할 수 있다. 예를 들어, 입력 텍스트(11) ”다락방에 불이 나 심한 화상을 입었다”는 다의어 “화상” 및 “입었다”를 포함할 수 있다.
서버(100)는 사전 데이터베이스를 이용하여 단어들 사이의 거리를 나타내는 거리 데이터를 획득할 수 있고, 사전 데이터베이스 및 거리 데이터를 이용하여 표제어와 뜻풀이에 포함된 단어를 연결하는 글로서리 데이터를 획득할 수 있으며, 글로서리 데이터를 이용하여 단어들 사이의 유사도를 나타내는 유사도 데이터를 획득할 수 있다. 서버(100)는 유사도 데이터를 이용하여 다의어 “화상” 및 ”입었다”의 의미를 식별할 수 있다.
서버(100)는 다의어 “화상” 및 “입었다”의 의미를 식별하는 태그를 입력 텍스트(11)에 삽입할 수 있다. 예를 들어, 사전 데이터베이스에서 단어 “화상”에 대응하는 표제어는 그 의미에 따라 “화상 [001]” 내지 “화상 [015]”로 총 15개가 존재할 수 있고, 단어 “입었다”에 대응하는 표제어는 “입다 [001]” 및 “입다 [002]”로 총 2개가 존재할 수 있다. 서버(100)는 다의어 “화상” 및 “입었다”의 의미에 대응하는 표제어가 식별되도록 “화상”에 태그 [003]을 삽입하고, “입었다”에 태그 [002]를 삽입할 수 있다. 서버(100)는 태그를 포함하는 출력 텍스트(12) “다락방에 불이 나 심한 화상[003]을 입었다[002]“를 저장할 수도 있고, 외부로 제공할 수도 있다.
도 2는 일 실시 예에 따른 다의어의 의미 추출 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 일 실시 예에 따른 다의어의 의미 추출 장치는 서버(200)로 구현될 수 있다. 일 실시 예에 따른 서버(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다.
통신 회로(210)는 외부와 통신하도록 구성될 수 있다. 통신 회로(210)는 무선 통신 인터페이스 및/또는 유선 통신 인터페이스를 포함할 수 있다. 예를 들어, 통신 회로(210)는 사용자 단말 및/또는 다른 외부 서버 등과 같은 외부 장치와 데이터를 송수신할 수 있다.
메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 서버(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 사용자 단말 및/또는 다른 외부 서버로부터 수신된 데이터를 저장할 수 있고, 서버(200) 내부에서 처리된 데이터를 저장할 수도 있다.
프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(240)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 사전 데이터베이스에 기초하여 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득할 수 있다. 거리 데이터는 표제어, 다른 표제어, 및 표제어와 다른 표제어 사이의 거리를 매칭하여 저장하는 데이터일 수 있다. 표제어와 다른 표제어 사이의 거리는 관련 어휘를 통한 연결 관계에 따라 결정될 수 있다. 예를 들어, 거리는 표제어와 다른 표제어 사이에서 연결된 유의어, 반의어, 상위어 또는 하위어의 수에 기초하여 결정될 수 있다. 예를 들어, 제1 표제어의 상위어가 제2 표제어이고, 제2 표제어의 하위어가 제3 표제어인 경우, 제1 표제어와 제3 표제어 사이의 거리는 2일 수 있다. 프로세서(230)는 사전 데이터베이스에 포함된 모든 표제어 각각 사이의 거리를 결정하고, 거리 데이터를 생성하고, 메모리(220)에 저장할 수 있다. 거리 데이터는, 예를 들어, 테이블 구조로 이루어질 수 있으나, 이에 제한되지 않고, 다양한 구조로 이루어질 수 있다. 거리 데이터에 대한 구체적인 예시는 도 4를 참조하여 상세히 설명한다.
프로세서(230)는 거리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어와 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리(glossary) 데이터를 획득할 수 있다. 글로서리 데이터는 표제어와 뜻풀이에 포함된 단어를 매칭하여 저장하는 데이터일 수 있다. 본 문서에서 글로서리 데이터는 글로서리 그래프로 참조될 수 있다. 예를 들어, 특정 표제어에 대하여 제1 단어 및 제2 단어를 포함하는 뜻풀이가 사전 데이터에 포함된 경우, 상기 특정 표제어와 뜻풀이에 포함된 제1 단어 및 제2 단어를 연결하는 글로서리 데이터를 생성하고, 메모리(220)에 저장할 수 있다. 글로서리 데이터는, 예를 들어, 테이블 구조, 맵 구조, 네트워크 구조 또는 그래프 구조 등으로 이루어질 수 있으나, 이에 제한되지 않고, 다양한 구조로 이루어질 수 있다. 프로세서(230)는 모든 표제어에 대한 글로서리 데이터를 생성할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 뜻풀이 텍스트에 포함된 단어가 다의어에 해당하는 경우, 표제어와 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어들 사이의 거리에 기초하여 뜻풀이 텍스트에 포함된 단어의 의미를 식별하고, 표제어와 식별된 단어의 의미에 대응하는 표제어를 연결할 수 있다. 예를 들어, 특정 표제어에 대한 뜻풀이에 포함된 단어가 제1 표제어 및 제2 표제어에 대응하는 다의어인 경우, 거리 데이터에 기초하여 상기 특정 표제어와 제1 표제어 사이의 거리 및 상기 특정 표제어와 제2 표제어 사이의 거리를 인식하고, 제1 표제어 및 제2 표제어 중 상기 특정 표제어와의 거리가 가까운 제1 표제어를 상기 특정 표제어와 연결하여 글로서리 데이터에 저장할 수 있다. 글로서리 데이터에 대한 구체적인 예시는 도 5를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 글로서리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어들 사이의 유사도를 포함하는 유사도 데이터를 획득할 수 있다. 유사도 데이터는 표제어, 다른 표제어, 및 표제어와 다른 표제어 사이의 유사도를 매칭하여 저장하는 데이터일 수 있다. 프로세서(230)는 글로서리 데이터를 이용하여 표제어와 다른 표제어 사이의 연결 관계를 파악할 수도 있고, 표제어와 다른 표제어가 문장 또는 문단 내에서 함께 출현하는 빈도를 파악할 수도 있다. 제1 표제어와 제2 표제어 사이의 유사도는 제1 표제어와 제2 표제어 사이의 연결 관계가 강한 경우, 또는 제1 표제어와 제2 표제어가 함께 출현할 확률이 높은 경우 높아질 수 있고, 반대의 경우 낮아질 수 있다. 유사도는 글로서리 데이터에 기초하여 패스(path) 기반 알고리즘, 인포메이션 컨텐트(information content) 및/또는 벡터 기반 알고리즘에 의해 산출될 수 있다. 예를 들어, Word2Vec 또는 Rada 알고리즘 등이 사용될 수 있다. 유사도를 산출하는 방법에 대해서는 도 6 및 도 7을 참조하여 상세히 설명한다. 프로세서(230)는 사전 데이터베이스에 포함된 모든 표제어 각각 사이의 유사도를 산출하고, 유사도 데이터를 생성하고, 메모리(220)에 저장할 수 있다. 유사도 데이터는, 예를 들어, 테이블 구조로 이루어질 수 있으나, 이에 제한되지 않고, 다양한 구조로 이루어질 수 있다. 유사도 데이터에 대한 구체적인 예시는 도 8을 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 분석 대상 텍스트를 획득할 수 있다. 프로세서(230)는 사용자 단말에 의해 웹 페이지의 입력창을 통해 입력되는 텍스트를 수신할 수도 있고, 사용자 단말에 의해 업로드된 파일(파일은 텍스트를 포함함)을 수신할 수도 있다. 프로세서(230)는 다른 외부 장치로부터 분석 대상 텍스트를 수신할 수도 있다. 프로세서(230)는 분석 대상 텍스트를 메모리(220)에 저장할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별할 수 있다. 프로세서(230)는 분석 대상 텍스트에 포함된 단어들의 원형을 획득할 수 있다. 프로세서(230)는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어와 다른 단어 사이의 유사도를 산출하고, 산출된 유사도에 기초하여 다의어의 의미를 식별할 수 있다. 프로세서(230)는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어와 다른 단어 각각 사이의 유사도를 각각 산출하고, 산출된 유사도의 합에 기초하여 다의어의 의미를 식별할 수 있다. 예를 들어, 프로세서(230)는 분석 대상 텍스트에 다의어와 다의어가 아닌 제1 단어 및 제2 단어가 포함되고, 다의어는 제1 표제어 및 제2 표제어에 대응하는 경우, 유사도 데이터를 이용하여 제1 표제어와 제1 단어 사이의 유사도 및 제1 표제어와 제2 단어 사이의 유사도의 합계 값(제1 합계 값)을 획득하고, 제2 표제어와 제1 단어 사이의 유사도 및 제2 표제어와 제2 단어 사이의 유사도의 합계 값(제2 합계 값)을 획득할 수 있다. 프로세서(230)는 제1 합계 값이 제2 합계 값보다 높은 경우, 다의어의 의미가 제1 표제어에 대응하는 것으로 판단할 수 있다. 유사도 산출의 구체적인 예시는 도 9를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 분석 대상 텍스트에 2 이상의 다의어가 포함된 경우, 프로세서(230)는 분석 대상 텍스트에 포함된 다의어의 의미가 식별된 후, 분석 대상 텍스트에 포함된 다른 다의어와 다의어 사이의 유사도를 산출하고, 다른 다의어와 다의어 사이의 유사도에 기초하여 다른 다의어의 의미를 식별할 수 있다. 예를 들어, 분석 대상 텍스트에 제1 다의어 및 제2 다의어가 포함된 경우, 프로세서(230)는 제1 다의어와 분석 대상 텍스트에 포함된 다른 단어들 사이의 유사도에 기초하여 제1 다의어의 의미를 식별하고, 이후 제2 다의어와 제1 다의어의 유사도에 기초하여 제2 다의어의 의미를 식별할 수 있다. 이 경우, 제2 다의어의 의미를 식별하기 위한 연산량이 감소되므로, 의미 식별을 위한 처리 속도가 향상될 수 있다. 2 이상의 다의어가 포함된 경우 유사도 산출의 구체적인 예시는 도 10을 참조하여 상세히 설명한다.
일 실시 예에 따르면, 분석 대상 텍스트에 2 이상의 다의어가 포함된 경우, 프로세서(230)는 분석 대상 텍스트에 포함된 다의어의 의미가 식별된 후, 분석 대상 텍스트에 포함된 다른 다의어와 다른 단어 사이의 유사도를 산출하고, 다른 다의어와 다른 단어 사이의 유사도에 기초하여 다른 다의어의 의미를 식별할 수 있다. 예를 들어, 분석 대상 텍스트에 제1 다의어 및 제2 다의어가 포함된 경우, 프로세서(230)는 제1 다의어와 분석 대상 텍스트에 포함된 다른 단어들 사이의 유사도에 기초하여 제1 다의어의 의미를 식별하고, 이후 제2 다의어와 분석 대상 텍스트에 포함된 다른 단어들 사이의 유사도에 기초하여 제2 다의어의 의미를 식별할 수 있다. 이 경우, 제2 다의어의 의미 식별의 정확도가 향상될 수 있다.
도 3은 일 실시 예에 따른 다의어의 의미 추출 장치에 입력되는 단어에 대한 예시적인 사전 검색 결과를 도시한다.
도 3을 참조하면, 사전 검색 결과는 입력된 단어에 대응하는 표제어 및 표제어에 대한 뜻풀이를 포함할 수 있다. 입력된 단어가 다의어에 해당하는 경우, 복수의 표제어가 출력될 수 있다. 예를 들어, 단어 “화상”이 입력된 경우, 표제어 “화상 [001]”, “화상 [002]” 및 “화상 [003]” 등이 출력될 수 있다. 표제어 각각은 상이한 의미를 가질 수 있고, 각각의 뜻풀이와 함께 출력될 수 있다.
표제어 “화상 [003]”이 선택되면, 뜻풀이와 함께 예문, 관련 어휘 및 어휘 지도 등이 제공될 수 있다. 어휘 지도는 표제어의 관련 어휘인 상위어, 하위어, 유의어 및 반의어 등을 시각적으로 표현할 수 있다. 표제어 “화상 [003]”의 상위어는 “손상”이고, 유의어는 “열상”이고, 하위어는 “중화상”일 수 있다.
본 발명의 일 실시 예에 따른 다의어의 의미 추출 장치는 상술한 사전 데이터 베이스를 이용하여 거리 데이터, 글로서리 데이터 및 유사도 데이터 등을 생성할 수 있다.
도 4는 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 거리 데이터를 도시한다.
도 4를 참조하면, 일 실시 예에 따른 장치는 사전 데이터베이스를 이용하여 표제어와 다른 표제어 사이의 거리 정보를 포함하는 거리 데이터를 생성할 수 있다. 거리 데이터는 다의어에 해당하는 표제어에 대해 생성될 수 있다. 거리는 서로 상위어, 하위어, 유의어 또는 반의어 관계에 있는 표제어들을 연결한 어휘 관계 네트워크를 기반으로 산출될 수 있다. 도 4는 다의어에 해당하는 표제어 “화상 [003]”에 대한 거리 데이터의 일부를 도시한다.
예를 들어, 표제어 “화상 [003]”은 표제어 “피부 [001]”과 어휘 관계 네트워크를 통해 연결되지 않을 수 있다. 이 경우, 표제어 “화상 [003]”과 표제어 “피부 [001]” 사이의 거리는 Inf(infinite)로 결정될 수 있다. 표제어 “화상 [003]”은 표제어 “피부 [002]”와 어휘 관계 네트워크를 통해 5개의 노드(node)로 연결될 수 있다. 이 경우, 표제어 “화상 [003]”과 표제어 “피부 [002]” 사이의 거리는 5로 결정될 수 있다. 표제어 “화상 [003]”은 표제어 “열상 [002]”와 어휘 관계 네트워크를 통해 1개의 노드로 연결(직접 연결)될 수 있다. 이 경우, 표제어 “화상 [003]”과 표제어 “열상 [002]” 사이의 거리는 1로 결정될 수 있다.
도 4에 도시된 거리 데이터는 표제어 “화상 [003]”에 대한 데이터의 일부로서, 표제어 “화상 [003]”과 다른 모든 표제어 사이의 거리 데이터가 생성될 수 있다. 또한, 모든 다의어 표제어에 대해 거리 데이터가 생성될 수 있다.
도 5는 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 글로서리(glossary) 데이터를 도시한다.
도 5를 참조하면, 일 실시 예에 따른 장치는 사전 데이터베이스 및 거리 데이터를 이용하여 특정 표제어와 그 특정 표제어에 대한 뜻풀이에 포함된 단어에 대응하는 표제어를 연결하는 글로서리 데이터를 생성할 수 있다. 뜻풀이에 포함된 단어가 다의어인 경우 그 단어에 대응하는 표제어는 거리 데이터를 이용하여 결정될 수 있다. 도 5는 표제어 “화상 [003]”에 대한 글로서리 데이터의 일부를 도시한다.
예를 들어, 표제어 “화상 [003]”에 대한 뜻풀이는 “높은 온도의 기체, 액체, 고체, 화염 따위에 데었을 때에 일어나는 피부의 손상”일 수 있다. 뜻풀이에 포함된 단어의 원형이 추출될 수 있다. 예를 들어, 단어의 원형인 높다, 온도, 기체, 액체, 고체, 화염, 따위, 데다 등이 추출될 수 있다. 단어 “온도”의 경우 하나의 의미를 갖는 단의어에 해당하므로, 표제어 “화상 [003]”과 표제어 “온도 [001]”이 연결되어 저장될 수 있다. 단어 “피부”는 다의어에 해당하므로, 단어 “피부”에 대응하는 표제어 “피부 [001]” 및 “피부 [002]” 중 표제어 “화상 [003]”과 가장 인접한 표제어 “피부 [002]”가 표제어 “화상 [003]”과 연결되어 저장될 수 있다.
도 5에 도시된 글로서리 데이터는 표제어 “화상 [003]”에 대한 데이터의 일부로서, 표제어 “화상 [003]”과 “화상 [003]”의 뜻풀이에 포함된 모든 단어 각각을 연결하는 글로서리 데이터가 생성될 수 있다. 또한, 글로서리 데이터는 모든 표제어에 대해 생성될 수 있다. 글로서리 데이터를 생성함으로써, 표제어에 대한 뜻풀이에 포함된 단어의 의미가 결정될 수 있다.
도 6은 일 실시 예에 따른 다의어의 의미 추출 장치가 글로서리 그래프를 이용하여 유사도를 산출하는 예시적인 동작을 설명하기 위한 도면이다.
도 6을 참조하면, 일 실시 예에 따른 장치는 글로서리 그래프를 이용하여 제1 표제어와 제2 표제어 사이의 유사도를 산출할 수 있다. 장치는 글로서리 그래프를 이용하여 제1 표제어와 제2 표제어를 연결시킬 수 있고, 제1 표제어와 제2 표제어 사이의 연결 관계를 파악할 수 있다. 유사도는 연결 관계에 따라 산출될 수 있다.
예를 들어, 제1 표제어 “사과 [001]”과 제2 표제어 “배 [003]”의 유사도가 산출될 수 있다. 제1 표제어 “사과 [001]”은 글로서리 그래프에서 “나무 [001]”, “열리다 [001]”, “열매 [001]” 및 “빨갛다 [001]”과 연결될 수 있다. 제2 표제어 “배 [003]”은 글로서리 그래프에서 “나무 [001]”, “열리다 [001]”, “열매 [001]” 및 “노랗다 [001]”과 연결될 수 있다. 이 경우, 제1 표제어 “사과 [001]”과 제2 표제어 “배 [003]”를 연결하는 경로의 개수는 “나무 [001]”, “열리다 [001]” 및 “열매 [001]”로 총 3개일 수 있다. 이 경우, 제1 표제어 “사과 [001]”과 제2 표제어 “배 [003]”의 유사도는 3으로 결정될 수 있다.
유사도의 정확도를 향상시키기 위해, 제1 표제어 및 제2 표제어에 대한 글로서리 그래프뿐만 아니라, 제1 표제어 및 제2 표제어와 연결된 표제어들의 글로서리 그래프를 활용하여 유사도를 산출할 수도 있다. 예를 들어, 제1 표제어 “사과 [001]”과 제2 표제어 “배 [003]”의 유사도를 산출하기 위해 글로서리 그래프에서 제1 표제어 또는 제2 표제어와 연결된 표제어 “나무 [001]”, “열리다 [001]”, “열매 [001]”, “빨갛다 [001]” 및 “노랗다 [001]” 각각에 대한 글로서리 그래프를 이용하여 유사도를 산출할 수도 있다. “나무 [001]”, “열리다 [001]”, “열매 [001]”, “빨갛다 [001]” 및 “노랗다 [001]” 각각에 대한 글로서리 그래프를 이용하여 제1 표제어와 제2 표제어를 연결하는 경로의 개수를 파악할 수 있고, 그 개수에 기초하여 유사도가 결정될 수 있다.
도 7은 일 실시 예에 따른 다의어의 의미 추출 장치가 글로서리 그래프를 이용하여 유사도를 산출하는 예시적인 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 일 실시 예에 따른 장치는 표제어의 1차 글로서리 그래프 및 2차 글로서리 그래프를 이용하여 유사도를 산출할 수 있다. 유사도 산출 대상인 제1 표제어와 제2 표제어 사이의 관계도가 낮은 경우, 도 6에서 설명된 경우와 달리 1차 글로서리 그래프를 이용하여 유사도를 산출할 수 없으므로, n차 글로서리 그래프가 이용될 수 있다. 도 7에서는 그 예시로서 2차 글로서리 그래프를 이용하는 경우에 대해 도시한다.
예를 들어, 제1 표제어 “화상 [003]”과 제2 표제어 “상처 [001]”의 유사도가 산출될 수 있다. 제1 표제어 “화상 [003]”의 1차 글로서리 그래프(711)는 “온도 [001]”, “피부 [002]”, “손상 [001]” 및 “높다 [001]” 등을 포함할 수 있다. 제1 표제어 “화상 [003]”의 2차 글로서리 그래프(712)는 1차 글로서리 그래프(711)에 포함된 표제어(예: “피부 [002]”)와 글로서리 그래프에서 연결된 표제어(예: “조직 [001]”, “동물 [001]”, “몸 [001]” 및 “싸다 [001]”)를 포함할 수 있다. 제2 표제어 “상처 [001]”의 1차 글로서리 그래프(721)는 “자리 [001]”, “부상 [005]”, “다치다 [001]” 및 “몸 [001]” 등을 포함할 수 있다. 제2 표제어 “상처 [001]”의 2차 글로서리 그래프(722)는 1차 글로서리 그래프(721)에 포함된 표제어(예: “다치다 [001]”)와 글로서리 그래프에서 연결된 표제어(예: “신체 [002]” 및 “손상 [001]”)를 포함할 수 있다.
1차 및 2차 글로서리 그래프를 이용하는 경우, 제1 표제어 “화상 [003]”과 제2 표제어 “상처 [001]”는 2개의 경로를 통해 서로 연결되므로, 제1 표제어 “화상 [003]”과 제2 표제어 “상처 [001]”의 유사도는 3으로 결정될 수 있다.
한편, 유사도의 산출을 위해 다른 방법이 사용될 수 있다. 예를 들어, 제1 표제어 “화상 [003]”과 연결된 모든 링크에 가중치(예: 피부: 0.001, 온도: 0.002, 높다: 0.002 등)를 부여하고, 제2 표제어 “상처 [001]”과 연결된 모든 링크에 가중치를 부여하고, 수 있다. 가중치는, 예를 들어, Personalized Page Rank 알고리즘에 의해 산출될 수 있다. 산출된 가중치에 기초하여 제1 표제어 “화상 [003]”과 제2 표제어 “상처 [001]” 사이의 상관 계수(예: 켄달 타우 또는 스피어만 계수)를 산출할 수 있고, 산출된 상관 계수는 유사도에 해당할 수 있다.
도 8은 일 실시 예에 따른 다의어의 의미 추출 장치에 의해 생성되는 예시적인 유사도 데이터를 도시한다.
도 8을 참조하면, 일 실시 예에 따른 장치는 글로서리 데이터를 이용하여 표제어와 다른 표제어 사이의 유사도를 나타내는 유사도 데이터를 생성할 수 있다. 도 8은 표제어 “화상 [003]”에 대한 유사도 데이터의 일부를 도시한다.
예를 들어, 표제어 “화상 [003]”에 대한 글로서리 데이터 및 다른 글로서리 데이터를 이용하여 표제어 “화상 [003]”과 표제어 “다락방 [001]” 및 “다락방 [002]” 사이의 유사도가 산출될 수 있다. 유사도는 패스 기반 알고리즘, 인포메이션 컨텐트 및/또는 벡터 기반 알고리즘 등에 기반하여 산출될 수 있다. 유사도는 표제어 “화상 [003]”과 표제어 “다락방 [001]”의 관계 및/또는 표제어 “화상 [003]”과 표제어 “다락방 [001]”이 함께 출현할 확률 등에 의해 결정될 수 있다. 표제어 “화상 [003]”과 표제어 “다락방 [001]” 사이의 유사도는 0.03일 수 있다. 표제어 “화상 [003]”과 표제어 “다락방 [002]” 사이의 유사도는 0.05일 수 있다.
도 8에 도시된 유사도 데이터는 표제어 “화상 [003]”에 대한 데이터의 일부로서, 표제어 “화상 [003]”과 사전 데이터베이스에 포함된 모든 단어 각각에 대한 유사도 데이터 데이터가 생성될 수 있다. 또한, 유사도 데이터는 모든 표제어에 대해 생성될 수도 있고, 또는 다의어에 해당하는 표제어에 대해 생성될 수도 있다.
도 9는 일 실시 예에 따른 다의어의 의미 추출 장치에서 처리되는 분석 대상 텍스트에 포함된 다의어의 예시적인 유사도 값을 도시한다.
도 9를 참조하면, 일 실시 예에 따른 장치는 유사도 데이터를 이용하여 분석 대상 텍스트에 포함된 다의어의 의미를 결정할 수 있다. 도 9는 분석 대상 텍스트에 포함된 다의어 “화상”에 대응하는 표제어의 일부와 분석 대상 텍스트에 포함된 다른 단어의 일부 사이의 유사도를 도시한다.
예를 들어, 다의어 “화상”에 대응하는 표제어는 “화상 [003]” 및 “화상 [008]” 등이 있을 수 있다. 유사도 데이터를 이용하여 표제어 “화상 [003]”과 다른 단어들 사이의 유사도가 획득될 수 있고, 그 산출된 유사도의 합계가 산출될 수 있다. 또한, 유사도 데이터를 이용하여 표제어 “화상 [008]”과 다른 단어들 사이의 유사도가 획득될 수 있고, 그 산출된 유사도의 합계가 산출될 수 있다. 표제어 “화상 [003]”과 다른 단어에 대응하는 표제어 “다락방 [001]”, “불 [001]”, “나다 [001]” 및 “심하다 [001]” 사이의 유사도는 각각 0.03, 0.2, 0.1 및 0.02일 수 있고, 그 유사도의 합계는 0.35일 수 있다. 표제어 “화상 [008]”과 분석 대상 텍스트에 포함된 다른 단어에 대응하는 표제어 “다락방 [001]”, “불 [001]”, “나다 [001]” 및 “심하다 [001]” 사이의 유사도는 각각 0.05, 0.02, 0.05 및 0.02일 수 있고, 그 유사도의 합계는 0.14일 수 있다. 이 경우, 다의어 “화상”에 대응하는 표제어는 상대적으로 유사도의 합계가 높은 “화상 [003]”일 수 있고, 다의어 “화상”의 의미는 표제어 “화상 [003]”의 의미로 식별될 수 있다.
도 10은 일 실시 예에 따른 다의어의 의미 추출 장치에서 처리되는 분석 대상 텍스트에 포함된 다의어의 예시적인 유사도 값을 도시한다.
도 10을 참조하면, 일 실시 예에 따른 장치는 유사도 데이터를 이용하여 분석 대상 텍스트에 포함된 다의어의 의미를 결정할 수 있다. 장치는 분석 대상 텍스트에 포함된 제1 다의어의 의미가 식별된 경우, 제1 다의어에 대응하는 표제어와 제2 다의어 사이의 유사도에 기초하여 제2 다의어의 의미를 결정할 수 있다. 도 10은 분석 대상 텍스트에 포함된 다의어 “입다”에 대응하는 표제어의 일부와 분석 대상 텍스트에 포함된 다른 다의어 “화상”에 대응하는 표제어 “화상 [003]” 사이의 유사도를 도시한다.
예를 들어, 의미가 식별된 다의어 “화상”에 대응하는 표제어는 “화상 [003]”일 수 있다. 다의어 “입다”에 대응하는 표제어는 “입다 [001]” 및 “입다 [002]” 등이 있을 수 있다. 유사도 데이터를 이용하여 표제어 “입다 [001]”과 표제어 “화상 [003]” 사이의 유사도가 획득될 수 있고, “입다 [002]”와 표제어 “화상 [003]” 사이의 유사도가 획득될 수 있다. 표제어 “입다 [001]”과 표제어 “화상 [003]” 사이의 유사도는 0.03일 수 있다. 표제어 “입다 [002]”와 표제어 “화상 [003]” 사이의 유사도는 0.07일 수 있다. 이 경우, 다의어 “입다”에 대응하는 표제어는 상대적으로 유사도가 높은 “입다 [002]”일 수 있고, 다의어 “입다”의 의미는 표제어 “입다 [002]”의 의미로 식별될 수 있다.
도 11은 일 실시 예에 따른 다의어의 의미 추출 장치에 의한 분석 대상 텍스트의 예시적인 처리 과정을 도시한다.
도 11을 참조하면, 일 실시 예에 따른 장치에 입력되는 입력 텍스트는 “다락방에 불이 나 심한 화상을 입었다”일 수 있다. 입력 텍스트로부터 입력 텍스트에 포함된 단어의 원형이 추출될 수 있다. 원형 추출에 의해 단어 “다락방”, “불”, “나다”, “심하다”, “화상” 및 “입다”가 추출될 수 있다. 설명의 편의를 위해 상술한 단어 중 “다락방”, “불”, “나다” 및 “심하다”는 단의어이고, “화상” 및 “입다”는 다의어인 것으로 가정한다.
우선 다의어 “화상”의 의미를 식별하기 위해 “화상”에 대응하는 표제어 “화상 [003]” 및 “화상 [008]”과 다른 단어 사이의 유사도가 산출될 수 있다. 표제어 “화상 [003]”과 단어 “다락방”, “불”, “나다”, “심하다”, “화상” 및 “입다” 사이의 유사도는 0.35이고, 표제어 “화상 [008]”과 단어 “다락방”, “불”, “나다”, “심하다”, “화상” 및 “입다” 사이의 유사도는 0.14일 수 있다. 유사도에 의해 다의어 “화상”에 대응하는 표제어는 “화상 [003]”으로 결정될 수 있다.
다음으로, 다의어 “입다”의 의미를 식별하기 위해 “입다”에 대응하는 표제어 “입다 [001]” 및 “입다 [002]”와 결정된 표제어 “화상 [003]” 사이의 유사도가 산출될 수 있다. 표제어 “입다 [001]”과 표제어 “화상 [003]” 사이의 유사도는 0.03이고, 표제어 “입다 [002]”와 표제어 “화상 [003]” 사이의 유사도는 0.07일 수 있다. 유사도에 의해 다의어 “입다”에 대응하는 표제어는 “입다 [001]”으로 결정될 수 있다.
다의어의 의미가 식별되면, 그 의미를 식별할 수 있도록 하는 태그, 마커 또는 식별자 등과 같은 식별 정보를 텍스트에 삽입할 수 있다. 출력 텍스트는 “다락방에 불이 나 심한 화상[003]을 입었다[002]”일 수 있다. 다의어의 의미가 식별된 출력 텍스트는 이후 검색 등과 같은 다른 작업에 활용될 수 있다.
도 12는 일 실시 예에 따른 다의어의 의미 추출 방법을 설명하기 위한 흐름도이다.
이하에서는 도 2의 서버(200)가 도 12의 프로세스를 수행하는 것을 가정한다. 또한, 도 12의 설명에서, 서버(200)에 의해 수행되는 것으로 기술된 동작은 프로세서(230)에 의해 제어되는 것으로 이해될 수 있다.
도 12를 참조하면, 단계 1210에서, 서버는 사전 데이터베이스에 기초하여 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득할 수 있다. 예를 들어, 서버는 어휘 관계 네트워크를 이용하여 다의어에 해당하는 표제어와 다른 표제어 사이의 거리를 산출하여 저장함으로써 거리 데이터를 생성할 수 있다.
단계 1220에서, 서버는 거리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어와 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리 데이터를 획득할 수 있다. 예를 들어, 서버는 특정 표제어와 뜻풀이 텍스트에 포함된 단의어에 대응하는 표제어를 연결하여 저장하고, 상기 특정 표제어와 뜻풀이 텍스트에 포함된 다의어에 대응하는 표제어들 중 상기 특정 표제어로부터 거리가 가까운 표제어를 연결하여 저장함으로써 글로서리 데이터를 생성할 수 있다.
단계 1230에서, 서버는 글로서리 데이터에 기초하여 사전 데이터베이스에 포함된 표제어들 사이의 유사도를 포함하는 유사도 데이터를 획득할 수 있다. 예를 들어, 서버는 글로서리 데이터를 이용하여 표제어와 다른 표제어 사이의 유사도를 산출하여 저장함으로써 유사도 데이터를 획득할 수 있다.
단계 1240에서, 서버는 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별할 수 있다. 예를 들어, 서버는 분석 대상 텍스트에 포함된 다의어와 다른 단어 사이의 유사도를 이용하여 다의어의 의미를 식별할 수 있다.
본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.
본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.
일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다.
일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (10)

  1. 다의어의 의미 추출 장치에 있어서,
    외부와 통신하도록 구성된 통신 회로;
    메모리; 및
    상기 통신 회로 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고,
    상기 프로세서는,
    사전 데이터베이스에 기초하여 상기 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득하고, - 상기 거리는 상기 다의어 표제어와 상기 다른 표제어 사이에 연결된 유의어, 반의어, 상위어 및 하위어의 개수에 기초하여 결정됨 -
    상기 사전 데이터베이스 및 상기 거리 데이터에 기초하여 상기 사전 데이터베이스에 포함된 표제어와 상기 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리(glossary) 데이터를 획득하고,
    상기 글로서리 데이터에 기초하여 상기 사전 데이터베이스에 포함된 표제어들 사이의 연결 관계에 따라 산출되는 유사도를 포함하는 유사도 데이터를 획득하고, - 상기 연결 관계는 상기 글로서리 데이터를 이용하여 파악됨 -
    상기 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별하고,
    상기 프로세서는,
    상기 뜻풀이 텍스트에 포함된 단어가 다의어에 해당하는 경우, 상기 표제어와 상기 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어들 사이의 거리에 기초하여 상기 뜻풀이 텍스트에 포함된 단어의 의미를 식별하고,
    상기 표제어와 상기 식별된 의미에 대응하는 표제어를 연결함으로써 상기 글로서리 데이터를 획득하는 것을 특징으로 하는, 장치.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 프로세서는,
    상기 통신 회로를 이용하여 상기 분석 대상 텍스트를 획득하는 것을 특징으로 하는, 장치.
  5. 제 1 항에 있어서,
    상기 프로세서는,
    상기 분석 대상 텍스트에 포함된 단어들의 원형을 획득하는 것을 특징으로 하는, 장치.
  6. 제 1 항에 있어서,
    상기 프로세서는,
    상기 유사도 데이터에 기초하여 상기 분석 대상 텍스트에 포함된 상기 다의어와 다른 단어 사이의 유사도를 산출하고,
    상기 산출된 유사도에 기초하여 상기 다의어의 의미를 식별하는 것을 특징으로 하는, 장치.
  7. 제 1 항에 있어서,
    상기 프로세서는,
    상기 유사도 데이터에 기초하여 상기 분석 대상 텍스트에 포함된 상기 다의어와 다른 단어 각각 사이의 유사도를 각각 산출하고,
    상기 산출된 유사도의 합에 기초하여 상기 다의어의 의미를 식별하는 것을 특징으로 하는, 장치.
  8. 제 1 항에 있어서,
    상기 프로세서는,
    상기 분석 대상 텍스트에 포함된 다의어의 의미가 식별된 후, 상기 분석 대상 텍스트에 포함된 다른 다의어와 상기 다의어 사이의 유사도를 산출하고,
    상기 다른 다의어와 상기 다의어 사이의 유사도에 기초하여 상기 다른 다의어의 의미를 식별하는 것을 특징으로 하는, 장치.
  9. 삭제
  10. 컴퓨팅 디바이스에 포함된 프로세서에 의해 수행되는 다의어의 의미 추출 방법에 있어서,
    사전 데이터베이스에 기초하여 상기 사전 데이터베이스에 포함된 다의어 표제어와 다른 표제어 사이의 거리를 포함하는 거리 데이터를 획득하는 단계; - 상기 거리는 상기 다의어 표제어와 상기 다른 표제어 사이에 연결된 유의어, 반의어, 상위어 및 하위어의 개수에 기초하여 결정됨 -
    상기 사전 데이터베이스 및 상기 거리 데이터에 기초하여 상기 사전 데이터베이스에 포함된 표제어와 상기 표제어에 대한 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어를 연결하는 글로서리 데이터를 획득하는 단계;
    상기 글로서리 데이터에 기초하여 상기 사전 데이터베이스에 포함된 표제어들 사이의 연결 관계에 따라 산출되는 유사도를 포함하는 유사도 데이터를 획득하는 단계; - 상기 연결 관계는 상기 글로서리 데이터를 이용하여 파악됨 - 및
    상기 유사도 데이터에 기초하여 분석 대상 텍스트에 포함된 다의어의 의미를 식별하는 단계를 포함하고,
    상기 글로서리 데이터를 획득하는 단계는,
    상기 뜻풀이 텍스트에 포함된 단어가 다의어에 해당하는 경우, 상기 표제어와 상기 뜻풀이 텍스트에 포함된 단어에 대응하는 표제어들 사이의 거리에 기초하여 상기 뜻풀이 텍스트에 포함된 단어의 의미를 식별하는 단계, 및
    상기 표제어와 상기 식별된 의미에 대응하는 표제어를 연결함으로써 상기 글로서리 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는, 방법.
KR1020200010994A 2020-01-30 2020-01-30 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법 KR102479163B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200010994A KR102479163B1 (ko) 2020-01-30 2020-01-30 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200010994A KR102479163B1 (ko) 2020-01-30 2020-01-30 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210097374A KR20210097374A (ko) 2021-08-09
KR102479163B1 true KR102479163B1 (ko) 2022-12-20

Family

ID=77313472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200010994A KR102479163B1 (ko) 2020-01-30 2020-01-30 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102479163B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225135A (ja) 2009-03-20 2010-10-07 Nec (China) Co Ltd 多義性解消方法とそのシステム
JP2018165949A (ja) * 2017-03-28 2018-10-25 富士通株式会社 判定プログラム、判定装置および判定方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
KR101359039B1 (ko) * 2011-09-15 2014-02-21 울산대학교 산학협력단 복합명사 분석장치 및 복합명사 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225135A (ja) 2009-03-20 2010-10-07 Nec (China) Co Ltd 多義性解消方法とそのシステム
JP2018165949A (ja) * 2017-03-28 2018-10-25 富士通株式会社 判定プログラム、判定装置および判定方法

Also Published As

Publication number Publication date
KR20210097374A (ko) 2021-08-09

Similar Documents

Publication Publication Date Title
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN101878476B (zh) 用于查询扩展的机器翻译
US20130018650A1 (en) Selection of Language Model Training Data
KR20180138321A (ko) 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
JP2022073981A (ja) ソースコード取得
CN104391837A (zh) 一种基于格语义的智能语法分析方法
Charoenpornsawat et al. Improving translation quality of rule-based machine translation
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
US20210073466A1 (en) Semantic vector rule discovery
US20210064820A1 (en) Machine learning lexical discovery
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
KR102479163B1 (ko) 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
US9104755B2 (en) Ontology enhancement method and system
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
KR102531114B1 (ko) 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
WO2015080559A2 (en) A method and system for automated word sense disambiguation
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
Debbarma et al. Morphological Analyzer for Kokborok
KR100998291B1 (ko) 키워드 스트링을 구조화하고 검출하는 방법 및 장치
CN114896980B (zh) 军事实体链接方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant