KR102108129B1

KR102108129B1 - 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체

Info

Publication number: KR102108129B1
Application number: KR1020130113745A
Authority: KR
Inventors: 김성묵
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2020-05-07
Also published as: KR20150033901A

Abstract

본 발명에서는 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체가 개시된다. 구체적으로, 본 발명에 따른 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 장치는, 텍스트 이모티콘 사전을 저장하기 위한 저장부 및 저장부를 제어하도록 구성된 제어부를 포함하고, 제어부는, 분석 대상이 되는 구문에서 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하고, 추출된 텍스트 이모티콘이 포함된 문장에서 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하며, 문장의 연결성이 검증된 문장에서 텍스트 이모티콘과 연결된 하나 이상의 단어와 연결되어 텍스트 이모티콘에 위치할 수 있는 단어의 의미를 통해 텍스트 이모티콘의 의미를 해석한다.

Description

텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체 {Apparatus for interpreting meaning of text emoticon, and recording medium therefor}

본 발명은 구문 분석을 위한 방법에 관한 것으로서, 보다 상세하게는 분석 대상이 되는 구문에 포함된 텍스트 이모티콘의 의미를 해석하기 위한 장치 및 이를 위한 기록매체에 관한 것이다.

인터넷이 널리 보급되고, 유선 및 무선 네트워크의 발전 및 전자 기기의 발전에 따라, 인터넷을 이용한 어학 학습이 점차 각광을 받고 있다. 특히, 온라인 쓰기(writing) 평가 시스템이 개발됨에 따라 학생들이 제출한 답안에 대하여 자동으로 평가 내지 채점 등을 수행한 후 학생들에게 그 결과를 제공하게 된다. 이러한, 온라인 쓰기(writing) 평가 시스템에서 제출된 답안의 문장 분석, 문장 오류 검출 등을 수행할 때, 학생들이 기재한 텍스트 이모티콘이 검출되면, 텍스트 이모티콘은 비텍스트의 요소로 간주되어 이를 무시하고 평가 내지 채점 등을 수행하였다. 즉, 텍스트 이모티콘은 전통적인 문장 분석의 대상이 아니었다.

다만, 최근 온라인 쓰기 시험 데이터에 텍스트 이모티콘이 자주 출현되고 있으며, 텍스트 이모티콘은 사용자 간의 다양한 감정을 표현하는 부가어 기능을 하는 텍스트의 성격이 강해지므로 이에 대한 문장상의 의미 해석이 필요하다.

한국공개특허 제10-2012-0109943호, 2012년 10월 09일 공개 (명칭: 문장에 내재한 감정 분석을 위한 감정 분류 방법)

본 발명의 목적은 분석 대상이 되는 구문에 포함된 텍스트 이모티콘의 의미를 해석하기 위한 장치 및 이를 위한 기록매체를 제안한다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 장치에 있어서, 텍스트 이모티콘 사전을 저장하기 위한 저장부 및 저장부를 제어하도록 구성된 제어부를 포함하고, 제어부는, 분석 대상이 되는 구문에서 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하고, 추출된 텍스트 이모티콘이 포함된 문장에서 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하며, 문장의 연결성이 검증된 문장에서 텍스트 이모티콘과 연결된 하나 이상의 단어와 연결되어 텍스트 이모티콘에 위치할 수 있는 단어의 의미를 통해 텍스트 이모티콘의 의미를 해석한다.

본 발명의 다른 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서, 분석 대상이 되는 구문에서 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하는 기능, 추출된 텍스트 이모티콘이 포함된 문장에서 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하는 기능 및 문장의 연결성이 검증된 문장에서 텍스트 이모티콘과 연결된 하나 이상의 단어와 연결되어 텍스트 이모티콘에 위치할 수 있는 단어의 의미를 통해 텍스트 이모티콘의 의미를 해석하는 기능을 포함한다.

본 발명의 실시예에 따르면, 분석 대상이 되는 구문에 포함된 텍스트 이모티콘의 의미를 해석할 수 있다.

또한, 본 발명의 실시예에 따르면, 텍스트 이모티콘의 의미 해석을 통해 전체 문장 혹은 구문의 의미를 보다 정확하게 해석할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 장치의 구성을 예시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 방법을 예시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 방법을 예시하는 다른 도면이다.
도 4에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 장치의 구성을 예시하는 도면이다.

본 발명에 따른 텍스트 이모티콘 의미 해석 장치(100)는 온라인 쓰기(writing) 시험 답안 분석, 자동 번역, 텍스트 분석 등과 같은 언어 처리 시 텍스트 이모티콘을 자동으로 추출하고, 추출된 텍스트 이모티콘의 의미를 해석하는 장치를 의미한다. 도 1에서 도시된 텍스트 이모티콘 의미 해석 장치(100)의 구성은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다.

이하, 본 발명에서 텍스트 이모티콘(또는 문자 이모티콘)은 사용자의 감정 표현, 인물 표현, 사물 표현, 의사 표현, 기타 유희적 표현 등을 위하여 문자(한글, 한자, 영어, 일본어 등), 기호(특수 문자, 문장 부호, 괄호, 수학 기호 등) 또는 숫자 등을 조합하여 생성된 아이콘을 의미하며, 도 4에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다. 이하, 설명의 편의를 위하여 텍스트 이모티콘을 구성하는 문자, 기호, 숫자 등을 캐릭터(character)라고 통칭한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 장치(100)는 저장부(110) 및 제어부(120)를 포함하여 구성될 수 있다. 또한, 본 발명에 따른 텍스트 이모티콘 의미 해석 장치(100)는 저장부(110) 및 제어부(120)에 추가하여 통신부(130)를 포함하여 구성될 수도 있다. 텍스트 이모티콘 의미 해석 장치(100)를 구성하는 저장부(110) 및 제어부(120)(또는, 이에 추가하여 통신부(130))는 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있다.

각 구성 요소에 대해 보다 구체적으로 설명하면, 저장부(110)는 텍스트 이모티콘 의미 해석 장치(100)의 동작에 필요한 데이터 및 프로그램을 저장하는 수단으로서, 기본적으로 텍스트 이모티콘 의미 해석 장치(100)에 의해 실행될 운영 프로그램 및 응용 프로그램을 저장한다. 특히, 본 발명에 있어서, 저장부(110)는 텍스트 이모티콘 사전(111)을 저장할 수 있다. 텍스트 이모티콘 사전은 텍스트 이모티콘을 일정한 순서와 체계로 배열하여 모아 놓은 집합을 의미하며, 이와 함께 해당 텍스트 이모티콘의 의미 또는 해설 등이 추가될 수도 있다. 또한, 텍스트 이모티콘 사전은 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 추가될 수도 있다. 최소 단위의 캐릭터 모델은 의미를 가지고 있는 가장 작은 단위의 텍스트 이모티콘을 의미한다. 예를 들어, 도 5에서 긍정적인 기분 표현을 나타내는 텍스트 이모티콘 '^^' 의 경우, '^.^', '^_^', '^o^' 등과 같이 '.', '_', 'o' 등과 같은 캐릭터들이 추가됨으로써 다양하게 변형되어 사용될 수 있으나, 모두 동일하게 긍정적인 기분 표현을 나타내게 된다. 이 경우, 긍정적인 기분 표현을 나타내는 가장 최소 단위의 텍스트 이모티콘인 '^^'가 본 발명에 따른 최소 단위의 캐릭터 모델에 해당될 수 있다.

또한, 저장부(110)는 대용량 코퍼스(Corpus)를 저장할 수 있다. 코퍼스는 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어 자료의 집합을 뜻한다. 즉, 언어 연구의 대상이 되는 글 또는 말 텍스트를 일정 기준을 가지고 모아놓은 집합을 의미한다. 이처럼 일정 기준만 만족한다면, 책 한 권이나 작품 한 편으로부터 수 억 어절 이상의 말 또는 글로 표현된 각종의 자료까지 다양한 크기의 자료 모음을 이용하여 코퍼스를 구축할 수 있다. 또한, 코퍼스를 구성하는 말 또는 글의 내용도 언어 연구의 목적에 따라 다양하게 구성될 수 있다. 예를 들어, 한국어 연구에 있어서는 한국어의 모든 측면이 반영될 수 있도록 다양한 자료를 통해 코퍼스를 구축할 수 있으나, 경제 용어 연구에 있어서는 경제 분야의 말 또는 문서들로만 코퍼스를 구축할 수도 있다. 이와 같이 코퍼스는 언어 연구의 목적이나 성격에 따라 다양한 크기와 내용을 가지는 언어 자료 집합을 통칭한다.

이러한 코퍼스는 상술한 바와 같이 텍스트 이모티콘 의미 해석 장치(100)의 저장부(110)에 저장되어 있을 수도 있으나, 저장부(110)에 저장되어 있지 않고 외부의 장치에 저장되어 있으며, 텍스트 이모티콘 의미 해석 장치(100)는 통신부(130)를 통해 해당 장치에 접속하여 코퍼스를 이용할 수도 있다.

통신부(130)는 다른 장치와 유/무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 특히, 본 발명에 있어서, 통신부(130)는 하나 이상의 다른 장치로부터 구문 분석(즉, 텍스트 이모티콘 의미 해석)을 위한 하나 이상의 문장을 수신할 수 있다. 또한, 통신부(130)는 하나 이상의 장치로부터 수신한 문장의 구문을 분석한 결과(즉, 텍스트 이모티콘 의미 해석 결과)를 하나 이상의 다른 장치로 전송할 수 있다.

제어부(120)는 텍스트 이모티콘 의미 해석 장치(100)의 전반적인 제어를 수행하는 구성으로, 저장부(110)(또는, 이에 추가하여 통신부(130))의 기능 수행을 기능 수행을 위한 신호의 흐름을 제어하게 된다. 이때, 제어부(120)는 운영 체제(OS: Operation System), 응용 프로그램 및 각 구성을 구동시키는 프로세스 장치, 예컨대, 중앙처리장치(CPU: Central Processing Unit)로 이루어질 수 있다.

특히, 본 발명에 있어서, 제어부(120)는 텍스트 이모티콘 추출부(121), 문장 연결성 검증부(125), 텍스트 이모티콘 의미 해석부(127)를 포함하여 구성될 수 있다.

텍스트 이모티콘 추출부(121)는 저장부(110)에 구축된 텍스트 이모티콘 사전과 분석 대상이 되는 구문에 포함된 캐릭터를 비교하여 텍스트 이모티콘을 추출한다. 즉, 텍스트 이모티콘 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일한 캐릭터가 포함되어 있는 경우에 해당 캐릭터를 텍스트 이모티콘으로 추출할 수 있다. 즉, 텍스트 이모티콘 추출부(121)는 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘의 캐릭터 스트링(character string)과 일치되는 캐릭터가 분석 대상인 구문에 포함되어 있는지 여부로 판단한다.

또한, 텍스트 이모티콘 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일하지는 않지만 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출하고, 유사도를 계산하며, 계산된 유사도에 따라 텍스트 이모티콘을 추출할 수 있다. 여기서, 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴으로, 최소 단위의 텍스트가 반복되거나, 좌우가 대칭되거나, 최소 단위의 캐릭터 모델에 새로운 캐릭터가 추가되거나, 최소 단위의 캐릭터 모델에 포함되는 캐릭터가 삭제 혹은 다른 캐릭터로 변경되거나, 2개 이상의 최소 단위의 캐릭터 모델이 결합되는 경우 등이 이에 해당될 수 있다.

예를 들어, 웃음 표현을 나타내는 'ㅋㅋ'는 'ㅋㅋㅋㅋㅋ' 등과 반복되어 웃음의 표현을 강조하기 위하여 사용될 수 있으며, 이 경우 텍스트 이모티콘 추출부(121)는 'ㅋㅋㅋㅋㅋ' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 앞서 설명한 예시에서 최소 단위의 캐릭터 모델인 '^^'은 다른 캐릭터 '.', '_', 'o'이 결합되어 '^.^', '^_^', '^o^'와 같이 변형될 수 있으며, 이 경우 텍스트 이모티콘 추출부(121)는 '^.^', '^_^', '^o^' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 사람의 얼굴 형상을 나타내는 '()'와 사람의 긍정적 혹은 부정적 기분을 나타내는 '^^', 'T.T' 등이 결합되어 '(^^)', '(T.T)'와 같은 텍스트 이모티콘을 구성할 수 있으며, 이 경우 텍스트 이모티콘 추출부(121)는 '(^^)', '(T.T)'가 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다.

그리고, 텍스트 이모티콘 추출부(121)는 추출한 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다. 이때, 텍스트 이모티콘 추출부(121)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작(operation)을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다. 여기서, 편집 거리 계산 방식은 분석 대상인 텍스트 이모티콘의 후보를 목표한 텍스트 이모티콘으로 변경하는 데 필요한 캐릭터의 조작(즉, 삽입, 삭제, 치환)의 횟수를 계산하여 유사도를 측정하는 방식을 의미한다. 예를 들어, 추출된 텍스트 이모티콘 후보가 '^o^'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, 'o' 캐릭터 한 번의 삭제만으로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 1번에 해당된다. 또한, 추출된 텍스트 이모티콘 후보가 '(^o^)'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, '()' 캐릭터 한 번의 삭제('()'가 최소 단위의 캐릭터 모델인 경우)와 'o' 캐릭터 한 번의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 2번에 해당될 수 있다. 혹은, '(' 캐릭터, ')' 캐릭터 및 'o' 캐릭터의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 3번에 해당될 수도 있다. 그리고, 텍스트 이모티콘 추출부(121)는 계산된 캐릭터 조작 횟수를 이용하여 0부터 1까지의 범위 내의 값을 가지는 유사도를 산출한다.

그리고, 텍스트 이모티콘 추출부(121)는 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간에 계산된 유사도를 기 설정된 임계치와 비교하여 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다. 즉, 텍스트 이모티콘 추출부(121)는 기 설정된 임계치 혹은 임계치 결정부(127)에서 결정한 임계치가 0.5인 경우 유사도가 0.5 이상(혹은 초과)하게 되면, 해당 텍스트 이모티콘 후보를 텍스트 이모티콘이라고 판단한다.

문장 연결성 검증부(125)는 분석 대상이 되는 구문에서 텍스트 이모티콘을 제외한 문장을 분석하여 문장 연결성을 검증한다. 즉, 문장 연결성 검증부(125)는 텍스트 이모티콘을 포함하는 문장을 대상으로 해당 텍스트 이모티콘을 제외한 문장의 나머지 부분으로 문장의 연결성을 검증한다. 본 발명에 있어서, 문장 연결성은 문장이 문법적으로 오류가 없다는 것을 의미한다. 즉, 문장 연결성 검증은 해당 문장이 텍스트 이모티콘을 제외하더라도 문법적으로 오류가 없는 완전한 문장인지 여부를 검증하는 것을 의미한다. 이는 다시 말해 문장에 포함된 텍스트 이모티콘이 부가어의 수행하는 것을 의미한다. 본 발명에 있어서, 부가어는 부사어, 의성어, 의태어 등과 같이 문장에서 제외 혹은 삭제를 하여도 해당 문장이 문법적으로 오류가 발생하지 않는 단어를 의미한다.

문장 연결성 검증부(125)는 문장의 연결성을 검증하기 위하여 일정한 문법을 이용하여 형태소 분석 및 품사 태깅을 수행함으로써 문장(sentence)의 구조를 분석할 수 있다. 일반적으로, 문장은 하나 이상의 구(또는 구절)(phrase)(예를 들어, 명사구(NP: Noun Phrase), 동사구(VP: Verb Phrase), 전치사구(PP: Preposition Phrase) 등) 등이 조합되어 형성되고, 이러한 하나 이상의 구(phrase)는 하나 이상의 형태소(또는 어절, 단어)가 조합되어 형성되므로, 문장 연결성 검증부(125)는 문장(sentence)-구(phrase)-형태소(또는 어절, 단어)로 이뤄지는 계층적인 트리 구조로 문장을 분석할 수 있다. 이처럼 문장의 구조를 분석하는 과정을 파싱(Parsing)라고도 지칭하며, 파싱은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파싱 트리(parsing tree)를 만드는 과정을 말한다.

이처럼, 문장 연결성 검증부(125)는 문장의 구조를 분석한 후, 문장을 구성하기 위하여 문법적으로 반드시 필요한 품사가 모두 존재하는지 여부를 판단함으로써 해당 문장이 문법적으로 오류가 있는지 여부를 검증한다.

텍스트 이모티콘 의미 해석부(127)는 텍스트 이모티콘의 앞 및/또는 뒤에 연결되는 하나 이상의 단어(혹은 어절, 형태소)와 연결되어 텍스트 이모티콘의 위치에 위치할 수 있는 부가어의 의미로 해당 텍스트 이모티콘의 의미를 해석한다. 여기서, 텍스트 이모티콘 의미 해석부(127)는 텍스트 이모티콘의 앞 및/또는 뒤에 연결되는 하나 이상의 단어(혹은 어절, 형태소)와 연결될 수 있는 부가어(예를 들어, 부사어, 의성어, 의태어 등)를 확인함으로써, 텍스트 이모티콘의 의미를 확인한다. 이때, 텍스트 이모티콘 의미 해석부(127)는 텍스트 이모티콘을 포함하는 N-gram 단위(즉, n개의 연속된 단어/형태소/어절)의 문자열을 대용량 코퍼스에서 검색하여 해당 텍스트 이모티콘의 위치에 대응되는 부가어를 추출하고, 추출된 부가어의 의미를 통해 해당 텍스트 이모티콘의 의미를 확인할 수 있다. 여기서, N-gram 단위의 문자열은 연속된 n개의 형태소나 어절의 단위로 절단한 문자열을 의미한다. 일례로, 2개의 연속된 형태소나 어절의 단위로 절단하는 바이그램(bi-gram), 3개의 연속된 형태소나 어절의 단위로 절단하는 트라이그램(tri-gram) 등이 이에 해당될 수 있다.

예를 들어, 텍스트 이모티콘 의미 해석부(127)는 텍스트 이모티콘의 앞과 뒤에 'A'와 'B'가 위치하여 'A+텍스트 이모티콘+B'으로 문장의 일부분이 구성되는 경우, 텍스트 이모티콘 의미 해석부(127)는 3-gram 단위의 문자열을 코퍼스에서 검색하여 텍스트 이모티콘 자리에 위치할 수 있는 부가어를 추출하고, 추출된 부가어의 의미로 해당 텍스트 이모티콘의 의미를 확인할 수 있다.

또한, 텍스트 이모티콘의 위치에 위치할 수 있는 부가어는 하나 이상의 추출될 수 있으므로, 텍스트 이모티콘 의미 해석부(127)는 하나 이상의 텍스트 이모티콘 의미 후보(즉, 부가어)를 추출하고, 하나 이상의 텍스트 이모티콘 의미 후보 중에서 가장 빈도수(또는 확률)가 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석할 수 있다. 이때, 텍스트 이모티콘 의미 해석부(127)는 텍스트 이모티콘이 포함된 문장에 텍스트 이모티콘 외에 다른 부가어가 있는지 여부를 확인하고, 다른 부가어가 있는 경우에는 하나 이상의 텍스트 이모티콘 의미 후보 중에서 확인된 다른 부가어와 하나의 문장에서 함께 사용되는 빈도수(또는 확률)가 가장 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석할 수 있다. 또한, 텍스트 이모티콘의 위치가 문장의 가장 앞 혹은 가장 뒤인 경우, 텍스트 이모티콘 의미 해석부(127)는 문장의 가장 앞 혹은 가장 뒤에서 사용되는 빈도수(또는 확률)가 가장 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석할 수 있다.

도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 방법을 예시하는 도면이다.

도 2를 참조하면, 텍스트 이모티콘 의미 해석 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출한다(S201). 여기서, 텍스트 이모티콘 의미 해석 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과 일치하는 텍스트 이모티콘을 추출할 수 있다.

또한, 텍스트 이모티콘 의미 해석 장치(100)는 기 구축된 텍스트 이모티콘 사전에 포함되는 기본 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출할 수 있다. 그리고, 텍스트 이모티콘 의미 해석 장치(100)는 추출된 텍스트 이모티콘 후보들과 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산하고, 유사도에 따라 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정할 수 있다. 이때, 텍스트 이모티콘 의미 해석 장치(100)는 계산된 유사도를 기 설정된 임계치와 비교하여 임계치 이상(혹은 초과)인 유사도를 가지는 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정할 수 있다.

이어, 텍스트 이모티콘 의미 해석 장치(100)는 분석 대상이 되는 구문에서 S201 단계에서 추출된 텍스트 이모티콘을 제외한 문장을 분석하여 문장 연결성을 검증한다(S203). 즉, 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘을 포함하는 문장을 대상으로 해당 텍스트 이모티콘을 제외한 문장의 나머지 부분으로 문장의 연결성, 즉 문법적으로 오류가 없는지 여부를 검증한다.

이어, 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘의 앞 및/또는 뒤에 연결되는 하나 이상의 단어(혹은 어절, 형태소)와 연결되어 텍스트 이모티콘의 위치에 위치할 수 있는 부가어의 의미로 해당 텍스트 이모티콘의 의미를 해석한다(S205). 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘을 포함하는 N-gram 단위(즉, n개의 연속된 단어/형태소/어절)의 문자열을 대용량 코퍼스에서 검색하여 해당 텍스트 이모티콘의 위치에 위치할 수 있는 부가어를 추출하고, 추출된 부가어의 의미를 통해 해당 텍스트 이모티콘의 의미를 확인할 수 있다.

이때, 텍스트 이모티콘 의미 해석 장치(100)는 S203 단계에서 문장의 연결성이 검증된 문장에 포함되는 텍스트 이모티콘만을 대상으로 그 의미를 해석할 수 있다

도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 의미 해석 방법을 예시하는 다른 도면이다.

도 3을 참조하면, 텍스트 이모티콘 의미 해석 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출한다(S301). 여기서, 텍스트 이모티콘 의미 해석 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과 일치하는 텍스트 이모티콘을 추출할 수 있다.

이어, 텍스트 이모티콘 의미 해석 장치(100)는 분석 대상이 되는 구문에서 S301 단계에서 추출된 텍스트 이모티콘을 제외한 문장을 분석하여 문장 연결성을 검증한다(S303). 즉, 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘을 포함하는 문장을 대상으로 해당 텍스트 이모티콘을 제외한 문장의 나머지 부분으로 문장의 연결성, 즉 문법적으로 오류가 없는지 여부를 검증한다.

이어, 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘의 앞 및/또는 뒤에 연결되는 하나 이상의 단어(혹은 어절, 형태소)와 연결되어 텍스트 이모티콘의 위치에 위치할 수 있는 하나 이상의 부가어를 텍스트 이모티콘 의미 후보로 추출한다(S305). 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘을 포함하는 N-gram 단위(즉, n개의 연속된 단어/형태소/어절)의 문자열을 대용량 코퍼스에서 검색하여 해당 텍스트 이모티콘의 위치에 대응되는 부가어를 텍스트 이모티콘 의미 후보로 추출할 수 있다.

이때, 텍스트 이모티콘 의미 해석 장치(100)는 S303 단계에서 문장의 연결성이 검증된 문장에 포함되는 텍스트 이모티콘만을 대상으로 그 의미를 해석할 수 있다

이어, 텍스트 이모티콘 의미 해석 장치(100)는 하나 이상의 텍스트 이모티콘 의미 후보 중에서 출현 빈도수(또는 확률)가 가장 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석한다(S307). 즉, 텍스트 이모티콘 의미 해석 장치(100)는 선택된 텍스트 이모티콘 의미 후보(즉, 부가어)의 의미로 해당 텍스트 이모티콘의 의미를 해석한다.

이때, 텍스트 이모티콘 의미 해석 장치(100)는 텍스트 이모티콘이 포함된 문장에 텍스트 이모티콘 외에 다른 부가어가 있는지 여부를 확인하고, 다른 부가어가 있는 경우에는 하나 이상의 텍스트 이모티콘 의미 후보 중에서 확인된 다른 부가어와 하나의 문장에서 함께 사용되는 빈도수(또는 확률)가 가장 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석할 수 있다. 또한, 텍스트 이모티콘의 위치가 문장의 가장 앞 혹은 가장 뒤인 경우, 텍스트 이모티콘 의미 해석 장치(100)는 문장의 가장 앞 혹은 가장 뒤에서 사용되는 빈도수(또는 확률)가 가장 높은 텍스트 이모티콘 의미 후보를 선택함으로써 텍스트 이모티콘의 의미를 해석할 수 있다.

이와 같이, 본 발명에 따른 텍스트 이모티콘 의미 해석 방안은 기 구축된 텍스트 이모티콘 사전을 활용하여 텍스트 이모티콘을 자동으로 추출하고, 텍스트 이모티콘의 의미를 해석함으로써 분석 대상이 되는 구문의 의미를 보다 정확히 해석할 수 있다.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

아울러, 본 발명에 따른 장치나 단말은 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.

또한, 본 발명에 따른 장치에 탑재되고 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

아울러, 본 발명에 따른 실시예를 설명하는데 있어서, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.

본 발명에 따른 텍스트 이모티콘 의미 해석 방안은 온라인 쓰기 답안 분석, 자동 번역, 텍스트 분석 등 다양한 언어 처리 기술 분야에 적용하는 것이 가능하다.

100: 텍스트 이모티콘 의미 해석 장치 110: 저장부
111: 텍스트 이모티콘 사전 120: 제어부
121: 텍스트 이모티콘 추출부 125: 문장 연결성 검증부
127: 텍스트 이모티콘 의미 해석부 130: 통신부

Claims

문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 장치에 있어서,
상기 텍스트 이모티콘을 모아 놓은 집합으로 각 텍스트 이모티콘의 의미 또는 해설을 포함하는 텍스트 이모티콘 사전을 저장하기 위한 저장부; 및
분석 대상이 되는 구문에서 상기 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하고, 상기 추출된 텍스트 이모티콘이 포함된 문장에서 상기 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하며, 상기 문장의 연결성이 검증된 문장에서 상기 텍스트 이모티콘과 연결된 하나 이상의 단어와, 상기 텍스트 이모티콘의 위치할 수 있는 단어의 의미를 기반으로 상기 텍스트 이모티콘의 의미를 해석하는 제어부;를 포함하되,
상기 제어부는,
코퍼스(Corpus)에서 상기 텍스트 이모티콘의 위치에 위치할 수 있는 하나 이상의 단어를 추출하고, 상기 추출된 하나 이상의 단어에서 상기 텍스트 이모티콘이 포함된 문장 내 포함된 부사어와 함께 사용되는 빈도수가 가장 높은 단어를 선택하며, 상기 선택된 단어의 의미를 통해 상기 텍스트 이모티콘의 의미를 해석하는 텍스트 이모티콘 의미 해석 장치.
문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 장치에 있어서,
상기 텍스트 이모티콘을 모아 놓은 집합으로 각 텍스트 이모티콘의 의미 또는 해설을 포함하는 텍스트 이모티콘 사전을 저장하기 위한 저장부; 및
분석 대상이 되는 구문에서 상기 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하고, 상기 추출된 텍스트 이모티콘이 포함된 문장에서 상기 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하며, 상기 문장의 연결성이 검증된 문장에서 상기 텍스트 이모티콘과 연결된 하나 이상의 단어와, 상기 텍스트 이모티콘의 위치할 수 있는 단어의 의미를 기반으로 상기 텍스트 이모티콘의 의미를 해석하는 제어부;를 포함하되,
상기 제어부는
상기 텍스트 이모티콘이 문장의 가장 앞 혹은 가장 뒤에 위치하는 경우, 코퍼스에서 상기 텍스트 이모티콘의 위치에 위치할 수 있는 하나 이상의 단어를 추출하고, 상기 추출된 하나 이상의 단어에서 문장의 가장 앞 혹은 가장 뒤에서 사용되는 빈도수가 가장 높은 단어를 선택하며, 상기 선택된 단어의 의미를 통해 상기 텍스트 이모티콘의 의미를 해석하는 텍스트 이모티콘 의미 해석 장치.
제1항 또는 제2항에 있어서, 상기 제어부는,
상기 텍스트 이모티콘을 포함하는 N-gram 단위의 문자열을 코퍼스(Corpus)에서 검색하여 상기 텍스트 이모티콘의 위치에 위치할 수 있는 단어를 추출하는 텍스트 이모티콘 의미 해석 장치.
삭제
문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서,
분석 대상이 되는 구문에서 상기 텍스트 이모티콘을 모아 놓은 집합으로 각 텍스트 이모티콘의 의미 또는 해설을 포함하는 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하는 기능;
상기 추출된 텍스트 이모티콘이 포함된 문장에서 상기 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하는 기능; 및
상기 문장의 연결성이 검증된 문장에서 상기 텍스트 이모티콘과 연결된 하나 이상의 단어와, 상기 텍스트 이모티콘의 위치에 위치할 수 있는 단어의 의미를 기반으로 상기 텍스트 이모티콘의 의미를 해석하는 기능;를 포함하되,
상기 해석하는 기능은
코퍼스에서 상기 텍스트 이모티콘의 위치에 위치할 수 있는 하나 이상의 단어를 추출하는 기능;
상기 추출된 하나 이상의 단어에서 상기 텍스트 이모티콘이 포함된 문장 내 포함된 부사어와 함께 사용되는 빈도수가 가장 높은 단어를 선택하는 기능; 및
상기 선택된 단어의 의미를 통해 상기 텍스트 이모티콘의 의미를 해석하는 기능;
을 포함하는 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘의 의미를 해석하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서,
분석 대상이 되는 구문에서 상기 텍스트 이모티콘을 모아 놓은 집합으로 각 텍스트 이모티콘의 의미 또는 해설을 포함하는 텍스트 이모티콘 사전을 이용하여 텍스트 이모티콘을 추출하는 기능;
상기 추출된 텍스트 이모티콘이 포함된 문장에서 상기 추출된 텍스트 이모티콘을 제외한 나머지 문장의 문법의 오류의 유무를 판단하여 문장의 연결성을 검증하는 기능; 및
상기 문장의 연결성이 검증된 문장에서 상기 텍스트 이모티콘과 연결된 하나 이상의 단어와, 상기 텍스트 이모티콘의 위치에 위치할 수 있는 단어의 의미를 기반으로 상기 텍스트 이모티콘의 의미를 해석하는 기능;를 포함하되,
상기 텍스트 이모티콘이 문장의 가장 앞 혹은 가장 뒤에 위치하는 경우, 상기 해석하는 기능은
코퍼스에서 상기 텍스트 이모티콘의 위치에 위치할 수 있는 하나 이상의 단어를 추출하는 기능;
상기 추출된 하나 이상의 단어에서 문장의 가장 앞 혹은 가장 뒤에서 사용되는 빈도수가 가장 높은 단어를 선택하는 기능; 및
상기 선택된 단어의 의미를 통해 상기 텍스트 이모티콘의 의미를 해석하는 기능;
을 포함하는 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.