KR20150033900A - Apparatus for extracting text emoticon, and recording medium therefor - Google Patents
Apparatus for extracting text emoticon, and recording medium therefor Download PDFInfo
- Publication number
- KR20150033900A KR20150033900A KR20130113744A KR20130113744A KR20150033900A KR 20150033900 A KR20150033900 A KR 20150033900A KR 20130113744 A KR20130113744 A KR 20130113744A KR 20130113744 A KR20130113744 A KR 20130113744A KR 20150033900 A KR20150033900 A KR 20150033900A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- emoticons
- character
- emoticon
- text emoticons
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 구문 분석을 위한 방법에 관한 것으로서, 보다 상세하게는 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출하기 위한 장치 및 이를 위한 기록매체에 관한 것이다.The present invention relates to a method for analyzing a syntax, and more particularly, to an apparatus and method for extracting text emoticons from a syntax to be analyzed.
인터넷이 널리 보급되고, 유선 및 무선 네트워크의 발전 및 전자 기기의 발전에 따라, 인터넷을 이용한 어학 학습이 점차 각광을 받고 있다. 특히, 온라인 쓰기(writing) 평가 시스템이 개발됨에 따라 학생들이 제출한 답안에 대하여 자동으로 평가 내지 채점 등을 수행한 후 학생들에게 그 결과를 제공하게 된다. 이러한, 온라인 쓰기(writing) 평가 시스템에서 제출된 답안의 문장 분석, 문장 오류 검출 등을 수행할 때, 학생들이 기재한 텍스트 이모티콘이 검출되면, 텍스트 이모티콘은 비텍스트의 요소로 간주되어 이를 무시하고 평가 내지 채점 등을 수행하였다. 즉, 텍스트 이모티콘은 전통적인 문장 분석의 대상이 아니었다. With the widespread use of the Internet, the development of wired and wireless networks, and the development of electronic devices, language learning using the Internet has become increasingly popular. In particular, as an online writing evaluation system is developed, students will automatically evaluate and score answers, and then provide the results to students. When the text emoticon described by the students is detected when analyzing the sentence of the answer submitted in the online writing evaluation system and detecting the sentence error, the text emoticon is regarded as the non-text element, Scoring, and so on. In other words, text emoticons were not subject to traditional sentence analysis.
다만, 최근 온라인 쓰기 시험 데이터에 텍스트 이모티콘이 자주 출현되고 있으며, 텍스트 이모티콘은 사용자 간의 다양한 감정을 표현하는 부가어 기능을 하는 텍스트의 성격이 강해지고 점차 다양화 되므로 텍스트 이모티콘을 자동으로 추출하기 위한 시스템의 구축이 필요하다. However, since text emoticons are frequently appearing in the recent online writing test data, text emoticon is a system for automatically extracting text emoticons since the text functioning as an additional word expressing various emotions among users becomes stronger and diversified gradually Construction is necessary.
본 발명의 목적은 분석 대상이 되는 구문에서 텍스트 이모티콘을 자동으로 추출하기 위한 장치 및 이를 위한 기록매체를 제안한다. An object of the present invention is to provide a device for automatically extracting a text emoticon from a syntax to be analyzed and a recording medium therefor.
또한, 본 발명의 목적은 미리 구축된 텍스트 이모티콘과 일치하지 않더라도 이와 유사한 텍스트 이모티콘을 추출하기 위한 장치 및 이를 위한 기록매체를 제안한다. In addition, the object of the present invention is to provide a device for extracting similar text emoticons, and a recording medium therefor, even if they do not coincide with pre-established text emoticons.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention, unless further departing from the spirit and scope of the invention as defined by the appended claims. It will be possible.
본 발명의 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 장치에 있어서, 텍스트 이모티콘 사전을 저장하기 위한 저장부 및 저장부를 제어하도록 구성된 제어부를 포함하고, 제어부는, 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하고, 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하며, 계산된 유사도가 기 설정된 임계치 이상인 경우 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정한다.According to one aspect of the present invention, there is provided an apparatus for extracting text emoticons composed of characters including characters, symbols, or special characters, the apparatus comprising: a storage unit for storing a text emoticone dictionary; and a control unit configured to control a storage unit The control unit extracts the text emoticons candidates from the syntax to be analyzed and calculates the similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary. If the calculated similarity is equal to or larger than the predetermined threshold value, Decide the text emoticon candidate as a text emoticon.
본 발명의 다른 일 양상은, 문자, 기호 또는 특수 문자를 포함하는 캐릭터(character)로 구성되는 텍스트 이모티콘을 추출하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 있어서, 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하는 기능, 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 기능 및 계산된 유사도가 기 설정된 임계치 이상인 경우 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 기능을 포함한다. According to another aspect of the present invention, there is provided a computer-readable recording medium recording a program for extracting text emoticons composed of characters including characters, symbols, or special characters, A function of calculating the degree of similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary, and a function of determining the extracted text emoticons as text emoticons when the calculated similarity is equal to or greater than a predetermined threshold value .
본 발명의 실시예에 따르면, 온라인 쓰기 답안 등과 같이 분석 대상이 되는 구문에 포함되어 있는 텍스트 이모티콘을 자동으로 추출할 수 있다.According to the embodiment of the present invention, the text emoticons included in the syntax to be analyzed, such as online writing answers, can be automatically extracted.
또한, 본 발명의 실시예에 따르면, 미리 구축된 텍스트 이모티콘과의 유사도를 계산함으로써, 미리 구축된 텍스트 이모티콘과 일치하지 않더라도 이와 유사한 텍스트 이모티콘을 추출할 수 있다. Also, according to the embodiment of the present invention, it is possible to extract a similar text emoticon even if it does not coincide with a pre-established text emoticon, by calculating the degree of similarity with the pre-established text emoticons.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtained in the present invention are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the following description .
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치의 구성을 예시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 다른 도면이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 결정하는 방법을 예시하는 도면이다.
도 5에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다.The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the technical features of the invention.
1 is a diagram illustrating a configuration of a text emoticons extracting apparatus according to an embodiment of the present invention.
2 is a diagram illustrating a text emoticons extraction method according to an embodiment of the present invention.
FIG. 3 is another diagram illustrating a method for extracting text emoticons according to an exemplary embodiment of the present invention. Referring to FIG.
FIG. 4 is a diagram illustrating a method of determining a reference threshold value for determining whether a text emoticons are present according to an exemplary embodiment of the present invention. Referring to FIG.
FIG. 5 illustrates text emoticons that may be used in the present invention.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The following detailed description, together with the accompanying drawings, is intended to illustrate exemplary embodiments of the invention and is not intended to represent the only embodiments in which the invention may be practiced. The following detailed description includes specific details in order to provide a thorough understanding of the present invention. However, those skilled in the art will appreciate that the present invention may be practiced without these specific details.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.In some instances, well-known structures and devices may be omitted or may be shown in block diagram form, centering on the core functionality of each structure and device, to avoid obscuring the concepts of the present invention.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.Throughout the specification, when an element is referred to as "comprising" or " including ", it is meant that the element does not exclude other elements, do. Also, the terms " part, "" module," and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have. Also, the terms " a or ", "one "," the ", and the like are synonyms in the context of describing the invention (particularly in the context of the following claims) May be used in a sense including both singular and plural, unless the context clearly dictates otherwise.
이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.The specific terminology used in the following description is provided to aid understanding of the present invention, and the use of such specific terminology may be changed into other forms without departing from the technical idea of the present invention.
도 1은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치의 구성을 예시하는 도면이다. 1 is a diagram illustrating a configuration of a text emoticons extracting apparatus according to an embodiment of the present invention.
본 발명에 따른 텍스트 이모티콘 추출 장치(100)는 온라인 쓰기(writing) 시험 답안 분석, 자동 번역, 텍스트 분석 등과 같은 언어 처리 시 텍스트 이모티콘을 자동으로 추출하는 장치를 의미한다. 도 1에서 도시된 텍스트 이모티콘 추출 장치(100)의 구성은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다. The text
이하, 본 발명에서 텍스트 이모티콘(또는 문자 이모티콘)은 사용자의 감정 표현, 인물 표현, 사물 표현, 의사 표현, 기타 유희적 표현 등을 위하여 문자(한글, 한자, 영어, 일본어 등), 기호(특수 문자, 문장 부호, 괄호, 수학 기호 등) 또는 숫자 등을 조합하여 생성된 아이콘을 의미하며, 도 5에서는 본 발명에 이용될 수 있는 텍스트 이모티콘들을 예시한다. 이하, 설명의 편의를 위하여 텍스트 이모티콘을 구성하는 문자, 기호, 숫자 등을 캐릭터(character)라고 통칭한다. Hereinafter, a text emoticon (or a character emoticon) according to the present invention includes characters (Korean, Chinese characters, English, Japanese, etc.), symbols (special characters, etc.) for emotion expression, character expression, A punctuation mark, a mathematical symbol, etc.) or a number, and FIG. 5 illustrates text emoticons that can be used in the present invention. For convenience of explanation, characters, symbols, numbers, and the like constituting the text emoticons are collectively referred to as characters.
도 1을 참조하면, 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 장치(100)는 저장부(110) 및 제어부(120)를 포함하여 구성될 수 있다. 또한, 본 발명에 따른 텍스트 이모티콘 추출 장치(100)는 저장부(110) 및 제어부(120)에 추가하여 통신부(130)를 포함하여 구성될 수도 있다. 텍스트 이모티콘 추출 장치(100)를 구성하는 저장부(110) 및 제어부(120)(또는, 이에 추가하여 통신부(130))는 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있다. Referring to FIG. 1, the
각 구성 요소에 대해 보다 구체적으로 설명하면, 저장부(110)는 텍스트 이모티콘 추출 장치(100)의 동작에 필요한 데이터 및 프로그램을 저장하는 수단으로서, 기본적으로 텍스트 이모티콘 추출 장치(100)에 의해 실행될 운영 프로그램 및 응용 프로그램을 저장한다. 특히, 본 발명에 있어서, 저장부(110)는 텍스트 이모티콘 사전(111)을 저장할 수 있다. 텍스트 이모티콘 사전은 텍스트 이모티콘을 일정한 순서와 체계로 배열하여 모아 놓은 집합을 의미하며, 이와 함께 해당 텍스트 이모티콘의 의미 또는 해설 등이 추가될 수도 있다. 또한, 텍스트 이모티콘 사전은 텍스트 이모티콘을 형성하는 기본 단위(혹은 최소 단위)인 캐릭터 모델이 추가될 수도 있다. 기본 단위의 캐릭터 모델은 의미를 가지는 가장 작은 단위의 텍스트 이모티콘을 의미한다. 예를 들어, 도 5에서 긍정적인 기분 표현을 나타내는 텍스트 이모티콘 '^^' 의 경우, '^.^', '^_^', '^o^' 등과 같이 '.', '_', 'o' 등과 같은 캐릭터들이 추가됨으로써 다양하게 변형되어 사용될 수 있으나, 모두 동일하게 긍정적인 기분 표현을 나타내게 된다. 이 경우, 긍정적인 기분 표현을 나타내는 가장 최소 단위의 텍스트 이모티콘인 '^^'가 본 발명에 따른 최소 단위의 캐릭터 모델에 해당될 수 있다. More specifically, the
통신부(130)는 다른 장치와 유/무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 특히, 본 발명에 있어서, 통신부(130)는 하나 이상의 다른 장치로부터 구문 분석(즉, 텍스트 이모티콘 추출)을 위한 하나 이상의 문장을 수신할 수 있다. 또한, 통신부(130)는 하나 이상의 장치로부터 수신한 문장의 구문을 분석한 결과(즉, 텍스트 이모티콘 추출 결과)를 하나 이상의 다른 장치로 전송할 수 있다.The
제어부(120)는 텍스트 이모티콘 추출 장치(100)의 전반적인 제어를 수행하는 구성으로, 저장부(110)(또는, 이에 추가하여 통신부(130))의 기능 수행을 기능 수행을 위한 신호의 흐름을 제어하게 된다. 이때, 제어부(120)는 운영 체제(OS: Operation System), 응용 프로그램 및 각 구성을 구동시키는 프로세스 장치, 예컨대, 중앙처리장치(CPU: Central Processing Unit)로 이루어질 수 있다.The
특히, 본 발명에 있어서, 제어부(120)는 텍스트 이모티콘 후보 추출부(121), 유사도 계산부(123), 텍스트 이모티콘 결정부(125)를 포함하여 구성될 수 있다. 또한, 이에 추가하여 제어부(120)는 임계치 결정부(127)를 더 포함하여 구성될 수도 있다. In particular, in the present invention, the
텍스트 이모티콘 후보 추출부(121)는 저장부(110)에 구축된 텍스트 이모티콘 사전과 분석 대상이 되는 구문에 포함된 캐릭터를 비교하여 텍스트 이모티콘 후보를 추출한다. 여기서, 텍스트 이모티콘 후보 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일한 캐릭터가 포함되어 있는 경우에 해당 캐릭터를 텍스트 이모티콘으로 추출할 수 있다. 즉, 텍스트 이모티콘 후보 추출부(121)는 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치되는 캐릭터가 분석 대상인 구문에 포함되어 있는지 여부로 판단한다. 즉, 캐릭터 문자열이 일치하는 경우에는 추출된 캐릭터는 이하 유사도 판단을 생략하고 텍스트 이모티콘으로 결정할 수 있다.The text emoticons
또한, 텍스트 이모티콘 후보 추출부(121)는 분석 대상이 되는 구문에 저장부(110)에 구축된 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘과 동일하지는 않지만 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출할 수 있다. 여기서, 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴으로, 최소 단위의 텍스트가 반복되거나, 최소 단위의 캐릭터 모델에 새로운 캐릭터가 추가되거나, 최소 단위의 캐릭터 모델에 포함되는 캐릭터가 삭제 혹은 다른 캐릭터로 변경되거나, 2개 이상의 최소 단위의 캐릭터 모델이 결합되는 경우 등이 이에 해당될 수 있다. In addition, the text emoticon
예를 들어, 웃음 표현을 나타내는 'ㅋㅋ'는 'ㅋㅋㅋㅋㅋ' 등과 반복되어 웃음의 표현을 강조하기 위하여 사용될 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 'ㅋㅋㅋㅋㅋ' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 앞서 설명한 예시에서 최소 단위의 캐릭터 모델인 '^^'은 다른 캐릭터 '.', '_', 'o'이 결합되어 '^.^', '^_^', '^o^'와 같이 변형될 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 '^.^', '^_^', '^o^' 등이 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다. 또한, 사람의 얼굴 형상을 나타내는 '()'와 사람의 긍정적 혹은 부정적 기분을 나타내는 '^^', 'T.T' 등이 결합되어 '(^^)', '(T.T)'와 같은 텍스트 이모티콘을 구성할 수 있으며, 이 경우 텍스트 이모티콘 후보 추출부(121)는 '(^^)', '(T.T)'가 텍스트 이모티콘 사전에 포함되지 않더라도 텍스트 이모티콘 후보로 추출할 수 있다.In this case, the text emoticon
유사도 계산부(123)는 텍스트 이모티콘 후보 추출부(121)에서 추출한 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다. 이때, 유사도 계산부(123)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작(operation)을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다. 여기서, 편집 거리 계산 방식은 분석 대상인 텍스트 이모티콘의 후보를 목표한 텍스트 이모티콘으로 변경하는 데 필요한 캐릭터의 조작(즉, 삽입, 삭제, 치환)의 횟수를 계산하여 유사도를 측정하는 방식을 의미한다. 예를 들어, 추출된 텍스트 이모티콘 후보가 '^o^'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, 'o' 캐릭터 한 번의 삭제만으로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 1번에 해당된다. 또한, 추출된 텍스트 이모티콘 후보가 '(^o^)'이고 목표하는 텍스트 이모티콘이 '^^'인 경우, '()' 캐릭터 한 번의 삭제('()'가 최소 단위의 캐릭터 모델인 경우)와 'o' 캐릭터 한 번의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 2번에 해당될 수 있다. 혹은, '(' 캐릭터, ')' 캐릭터 및 'o' 캐릭터의 삭제로 목표하는 텍스트 이모티콘인 '^^'로 변경이 가능하므로 이때, 캐릭터 조작 횟수는 3번에 해당될 수도 있다. 그리고, 유사도 계산부(123)는 계산된 캐릭터 조작 횟수를 이용하여 0부터 1까지의 범위 내의 값을 가지는 유사도를 산출한다. The
텍스트 이모티콘 결정부(125)는 유사도 계산부(123)에서 텍스트 이모티콘 후보들과 저장부(110)에 저장된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간에 계산된 유사도를 기 설정된 임계치 혹은 임계치 결정부(127)에서 결정한 임계치와 비교하여 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다. 즉, 텍스트 이모티콘 결정부(125)는 기 설정된 임계치 혹은 임계치 결정부(127)에서 결정한 임계치가 0.5인 경우 유사도가 0.5 이상(혹은 초과)하게 되면, 해당 텍스트 이모티콘 후보를 텍스트 이모티콘이라고 판단한다. The text
임계치 결정부(127)는 텍스트 이모티콘 결정부(125)에서 텍스트 이모티콘 후보들이 텍스트 이모티콘인지 여부를 판단하기 위한 기준이 되는 임계치를 결정한다. 이때, 임계치 결정부(127)는 분석 대상이 되는 구문의 분석을 통해 의미가 판단되는 단어(혹은 어절, 형태소)가 전체 구문에서 차지하는 비율과 텍스트 이모티콘 결정부(125)에서 판단한 텍스트 이모티콘이 전체 구문에서 차지하는 비율을 통해 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 실험적으로 결정할 수 있다. 예를 들어, 의미가 판단되는 단어(혹은 어절, 형태소)의 비율이 전체 구문에서 0.7이고, 텍스트 이모티콘의 비율이 전체 구문에서 0.1인 경우, 합산의 결과를 기 설정된 임계치와 비교한다. 이때, 기 설정된 임계치가 0.9인 경우 합산의 결과가 임계치보다 작으므로 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 하향 조정한다. 예를 들어, 유사도와 비교가 되는 기준치가 0.5인 경우(즉, 0.5 이상(혹은 초과)인 경우 텍스트 이모티콘으로 결정)인 경우, 0.4로 하향 조정할 수 있다. 즉, 임계치 결정부(127)는 텍스트 이모티콘으로 판단하게 되는 기준치를 더 낮춤으로써 보다 많은 텍스트 이모티콘의 후보가 텍스트 이모티콘으로 판단되도록 설정할 수 있다. The threshold
도 2는 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 도면이다. 2 is a diagram illustrating a text emoticons extraction method according to an embodiment of the present invention.
도 2를 참조하면, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출한다(S201). 이때, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전에 포함되는 기본 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 기반으로 텍스트 이모티콘 후보를 추출할 수 있다. 이때, 텍스트 이모티콘을 형성하는 최소 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴으로, 최소 단위의 텍스트가 반복되거나, 최소 단위의 캐릭터 모델에 새로운 캐릭터가 추가되거나, 최소 단위의 캐릭터 모델에 포함되는 캐릭터가 삭제 혹은 다른 캐릭터로 변경되거나, 복수의 최소 단위의 캐릭터 모델이 결합되는 경우 등이 이에 해당될 수 있다.Referring to FIG. 2, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S201 단계에서 추출된 텍스트 이모티콘 후보들과 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다(S203). 이때, 텍스트 이모티콘 추출 장치(100)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다.Next, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S203 단계에서 계산한 유사도에 따라 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다(S205). 텍스트 이모티콘 추출 장치(100)는 계산된 유사도를 기 설정된 임계치 혹은 텍스트 이모티콘 추출 장치(100)에서 결정된 임계치와 비교하여 임계치 이상(혹은 초과)인 유사도를 가지는 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정할 수 있다. Then, the text
도 3은 본 발명의 일 실시예에 따른 텍스트 이모티콘 추출 방법을 예시하는 다른 도면이다. FIG. 3 is another diagram illustrating a method for extracting text emoticons according to an exemplary embodiment of the present invention. Referring to FIG.
도 3을 참조하면, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과 일치하는 텍스트 이모티콘을 추출한다(S201). 이때, 텍스트 이모티콘 추출 장치(100)는 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치되는 캐릭터가 분석 대상인 구문에 포함되어 있는지 여부로 분석 대상 구분에서 텍스트 이모티콘을 추출할 수 있다. 즉, 캐릭터 문자열이 일치하는 경우에는 추출된 캐릭터는 이하 유사도 판단을 생략하고 텍스트 이모티콘으로 결정할 수 있다. Referring to FIG. 3, the text
그리고, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전을 이용하여 분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출한다(S303). 이때, 텍스트 이모티콘 추출 장치(100)는 기 구축된 텍스트 이모티콘 사전에 포함되는 기본 단위의 캐릭터 모델이 이용되는 규칙 혹은 패턴을 이용하여 텍스트 이모티콘 후보를 추출할 수 있다.Then, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S303 단계에서 추출된 텍스트 이모티콘 후보들과 기 구축된 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘을 비교하여 유사도를 계산한다(S305). 이때, 텍스트 이모티콘 추출 장치(100)는 캐릭터간 조작인 삽입, 삭제, 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 추출된 텍스트 이모티콘 후보와 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘 간의 유사도를 계산할 수 있다.Next, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S305 단계에서 계산한 유사도에 따라 해당 텍스트 이모티콘 후보가 텍스트 이모티콘인지 여부를 결정한다(S307). 텍스트 이모티콘 추출 장치(100)는 계산된 유사도를 기 설정된 임계치 혹은 텍스트 이모티콘 추출 장치(100)에서 결정된 임계치와 비교하여 임계치 이상(혹은 초과)인 유사도를 가지는 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정할 수 있다. Then, the text
도 4는 본 발명의 일 실시예에 따른 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 결정하는 방법을 예시하는 도면이다. FIG. 4 is a diagram illustrating a method of determining a reference threshold value for determining whether a text emoticons are present according to an exemplary embodiment of the present invention. Referring to FIG.
도 4를 참조하면, 텍스트 이모티콘 추출 장치(100)는 전체 구문에서 구문의 분석을 통해 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 전체 구문에서 텍스트 이모티콘 비율을 합산한다(S401). 즉, 텍스트 이모티콘 추출 장치(100)는 전체 구문에서 의미가 판단되는 단어(혹은 어절, 형태소)의 비율(예를 들어, 0.x)과 전체 구문에서 앞서 도 2 혹은 도 3의 방법을 통해 결정된 텍스트 이모티콘의 비율(예를 들어, 0.x')을 합산한다. Referring to FIG. 4, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S401 단계에서 합산한 결과가 1과 비교하여 1보다 큰지 혹은 작은지 판단한다(S403).Then, the text
이어, 텍스트 이모티콘 추출 장치(100)는 S403 단계에서 판단한 결과를 이용하여 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치의 최적의 값을 결정한다(S405). 즉, 텍스트 이모티콘 추출 장치(100)는 S403 단계에서 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 결정된 텍스트 이모티콘의 비율의 합이 기 설정된 임계치 보다 작은 경우, 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 하향 조정한다. 반면, S403 단계에서 의미가 판단된 단어(혹은 어절, 형태소)의 비율과 결정된 텍스트 이모티콘의 비율의 합이 기 설정된 임계치 보다 큰 경우, 텍스트 이모티콘 여부를 판단하기 위하여 기준이 되는 임계치를 상향 조정한다.Next, the text
이와 같이, 본 발명에 따른 텍스트 이모티콘 추출 방안은 기 구축된 텍스트 이모티콘 사전을 활용하여 분석 대상이 되는 다양한 구문에서 텍스트 이모티콘을 자동으로 추출할 수 있다. 나아가, 분석 대상이 되는 구문에서 텍스트 이모티콘을 추출함으로써 구문의 의미를 보다 효과적으로 해석함으로써 정확한 구문 분석 결과를 도출할 수 있다.As described above, the text emoticons extracting method according to the present invention can automatically extract text emoticons from various syntaxes to be analyzed by utilizing pre-built text emoticons dictionaries. Furthermore, by extracting the text emoticons from the syntax to be analyzed, it is possible to derive the correct parsing result by analyzing the meaning of the syntax more effectively.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.Embodiments in accordance with the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof. In the case of hardware implementation, an embodiment of the present invention may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs) field programmable gate arrays, processors, controllers, microcontrollers, microprocessors, and the like.
또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, in the case of an implementation by firmware or software, an embodiment of the present invention may be embodied in the form of a module, a procedure, a function, and the like for performing the functions or operations described above, Lt; / RTI > Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a recording medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Optical media such as a floppy disk and a hardware device specifically configured to store and execute program instructions such as ROM, RAM, flash memory and the like. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art. Furthermore, although specific terms are used in this specification and the drawings, they are used in a generic sense only to facilitate the description of the invention and to facilitate understanding of the invention, and are not intended to limit the scope of the invention. Accordingly, the foregoing detailed description is to be considered in all respects illustrative and not restrictive. The scope of the present invention should be determined by rational interpretation of the appended claims, and all changes within the scope of equivalents of the present invention are included in the scope of the present invention.
아울러, 본 발명에 따른 장치나 단말은 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.In addition, a device or terminal according to the present invention may be driven by instructions that cause one or more processors to perform the functions and processes described above. Such instructions may include, for example, interpreted instructions such as script commands, such as JavaScript or ECMAScript commands, or other instructions stored in executable code or computer readable media. Further, the apparatus according to the present invention may be implemented in a distributed manner across a network, such as a server farm, or may be implemented in a single computer device.
또한, 본 발명에 따른 장치에 탑재되고 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.Further, a computer program (also known as a program, software, software application, script or code) that is embedded in the apparatus according to the present invention and which implements the method according to the present invention includes a compiled or interpreted language, a priori or procedural language , And may be deployed in any form including standalone programs or modules, components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in the file system. The program may be stored in a single file provided to the requested program, or in multiple interactive files (e.g., a file storing one or more modules, subprograms, or portions of code) (E.g., one or more scripts stored in a markup language document). A computer program may be deployed to run on multiple computers or on one computer, located on a single site or distributed across multiple sites and interconnected by a communications network.
아울러, 본 발명에 따른 실시예를 설명하는데 있어서, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.Moreover, in describing the embodiments according to the present invention, operations are depicted in the drawings in a particular order, but it is to be understood that they should perform such operations in that particular order or sequential order shown in order to obtain the desired result, Should not be understood as being performed. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood.
본 발명에 따른 텍스트 이모티콘 추출 방안은 온라인 쓰기 답안 분석, 자동 번역, 텍스트 분석 등 다양한 언어 처리 기술 분야에 적용하는 것이 가능하다. The method for extracting text emoticons according to the present invention can be applied to various language processing technology fields such as analysis of online writing answers, automatic translation, and text analysis.
100: 텍스트 이모티콘 추출 장치 110: 저장부
111: 텍스트 이모티콘 사전 120: 제어부
121: 텍스트 이모티콘 후보 추출부 123: 유사도 계산부
125: 텍스트 이모티콘 결정부 127: 임계치 결정부
130: 통신부100: Text Emoticons Extracting Apparatus 110:
111: text emoticons dictionary 120:
121: text emoticone candidate extracting unit 123: similarity calculating unit
125: Text Emoticon Determination Unit 127: Threshold Determination Unit
130:
Claims (7)
텍스트 이모티콘 사전을 저장하기 위한 저장부; 및
상기 저장부를 제어하도록 구성된 제어부를 포함하고,
상기 제어부는,
분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하고,
상기 추출된 텍스트 이모티콘 후보와 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하며,
상기 계산된 유사도가 기 설정된 임계치 이상인 경우 상기 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 텍스트 이모티콘 추출 장치.1. An apparatus for extracting a text emoticon composed of a character, a symbol or a character including a special character,
A storage for storing a text emoticons dictionary; And
And a control unit configured to control the storage unit,
Wherein,
A text emoticon candidate is extracted from a phrase to be analyzed,
Calculating a similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary,
And determines the extracted text emoticons candidates as text emoticons when the calculated similarity is equal to or greater than a predetermined threshold value.
상기 저장부는 상기 텍스트 이모티콘을 형성하는 기본 단위인 캐릭터 모델을 저장하고,
상기 제어부는,
상기 캐릭터 모델이 이용되는 규칙을 기반으로 상기 텍스트 이모티콘 후보를 추출하는 텍스트 이모티콘 추출 장치.The method according to claim 1,
Wherein the storage unit stores a character model that is a basic unit for forming the text emoticons,
Wherein,
And extracting the text emoticon candidate based on rules in which the character model is used.
상기 캐릭터 모델이 이용되는 규칙은 상기 캐릭터 모델의 반복, 상기 캐릭터 모델에 다른 캐릭터의 추가, 상기 캐릭터 모델에 포함되는 캐릭터의 삭제, 상기 캐릭터 모델에 포함되는 캐릭터의 변경되거나, 복수의 캐릭터 모델의 결합인 텍스트 이모티콘 추출 장치.The method according to claim 1,
The rule that the character model is used may include a repetition of the character model, addition of another character to the character model, deletion of a character included in the character model, change of a character included in the character model, or combination of a plurality of character models Text emoticons extraction device.
상기 추출된 텍스트 이모티콘 후보에 포함되는 캐릭터의 삽입, 삭제 또는 치환의 조작을 이용한 편집 거리(edit distance) 계산을 통해 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 텍스트 이모티콘 추출 장치.The apparatus of claim 1,
And calculating a similarity with the text emoticons included in the text emoticons dictionary through calculation of an edit distance using an operation of inserting, deleting or replacing characters included in the extracted text emoticons candidates.
상기 분석 대상이 되는 구문에서 상기 텍스트 이모티콘 사전에 포함되는 텍스트 이모티콘의 캐릭터 문자열(character string)과 일치하는 캐릭터를 상기 텍스트 이모티콘으로 결정하는 텍스트 이모티콘 추출 장치.The apparatus of claim 1,
And a character matching the character string of the text emoticons included in the text emoticons in the syntax to be analyzed is determined as the text emoticons.
상기 임계치는 상기 분석 대상이 되는 구문에서 의미가 판단되는 단어의 비율 및 상기 분석 대상이 되는 구문에서 상기 결정된 텍스트 이모티콘의 비율을 이용하여 조정되는 텍스트 이모티콘 추출 장치.The method according to claim 1,
Wherein the threshold value is adjusted using a ratio of words judged to be meaningful in the syntax to be analyzed and a ratio of the determined text emoticons in the syntax to be analyzed.
분석 대상이 되는 구문에서 텍스트 이모티콘 후보를 추출하는 기능;
상기 추출된 텍스트 이모티콘 후보와 상기 텍스트 이모티콘 사전에 포함된 텍스트 이모티콘과의 유사도를 계산하는 기능; 및
상기 계산된 유사도가 기 설정된 임계치 이상인 경우 상기 추출된 텍스트 이모티콘 후보를 텍스트 이모티콘으로 결정하는 기능을 포함하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.A computer-readable recording medium recording a program for extracting a text emoticon composed of a character, a symbol, or a character including a special character,
A function of extracting a text emoticon candidate from a syntax to be analyzed;
Calculating a similarity between the extracted text emoticons candidate and the text emoticons included in the text emoticons dictionary; And
And determining the extracted text emoticons candidates as text emoticons when the calculated similarity degree is equal to or greater than a predetermined threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130113744A KR20150033900A (en) | 2013-09-25 | 2013-09-25 | Apparatus for extracting text emoticon, and recording medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130113744A KR20150033900A (en) | 2013-09-25 | 2013-09-25 | Apparatus for extracting text emoticon, and recording medium therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20150033900A true KR20150033900A (en) | 2015-04-02 |
Family
ID=53030983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20130113744A KR20150033900A (en) | 2013-09-25 | 2013-09-25 | Apparatus for extracting text emoticon, and recording medium therefor |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20150033900A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180065184A (en) * | 2016-12-07 | 2018-06-18 | 동국대학교 산학협력단 | Method for measuring semantic fitness between word-color, and apparatus thereof |
WO2021071224A1 (en) * | 2019-10-07 | 2021-04-15 | 주식회사 플랫팜 | Device for providing message service for actively building expression item database including sub-expression items and method therefor |
WO2021071231A1 (en) * | 2019-10-07 | 2021-04-15 | 주식회사 플랫팜 | Message service providing device for actively building database of expression items including sub-expression items, and method thereof |
CN113987115A (en) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | Text similarity calculation method, device, equipment and storage medium |
-
2013
- 2013-09-25 KR KR20130113744A patent/KR20150033900A/en not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180065184A (en) * | 2016-12-07 | 2018-06-18 | 동국대학교 산학협력단 | Method for measuring semantic fitness between word-color, and apparatus thereof |
WO2021071224A1 (en) * | 2019-10-07 | 2021-04-15 | 주식회사 플랫팜 | Device for providing message service for actively building expression item database including sub-expression items and method therefor |
WO2021071231A1 (en) * | 2019-10-07 | 2021-04-15 | 주식회사 플랫팜 | Message service providing device for actively building database of expression items including sub-expression items, and method thereof |
US11366846B2 (en) | 2019-10-07 | 2022-06-21 | Platfarm Inc. | Apparatus and a method for providing expression item services which constructing digital communication environments |
CN113987115A (en) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | Text similarity calculation method, device, equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020119075A1 (en) | General text information extraction method and apparatus, computer device and storage medium | |
CN103154936B (en) | For the method and system of robotization text correction | |
Green et al. | Better Arabic parsing: Baselines, evaluations, and analysis | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
JP6532088B2 (en) | Autonomous learning alignment-based alignment corpus generation device and method thereof, morpheme analysis device of destruction expression using alignment corpus, and morphological analysis method thereof | |
Singh et al. | Automatic normalization of word variations in code-mixed social media text | |
EP3639155A1 (en) | Transforming encodings of documents with embedded mathematical formulas | |
Hancke et al. | Exploring CEFR classification for German based on rich linguistic modeling | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
Xia | Codeswitching language identification using subword information enriched word vectors | |
KR20150033900A (en) | Apparatus for extracting text emoticon, and recording medium therefor | |
Li et al. | Improving named entity recognition in tweets via detecting non-standard words | |
Barrett et al. | Cross-lingual transfer of correlations between parts of speech and gaze features | |
CN110633456B (en) | Language identification method, language identification device, server and storage medium | |
Xue et al. | Improved correction detection in revised ESL sentences | |
KR102108129B1 (en) | Apparatus for interpreting meaning of text emoticon, and recording medium therefor | |
Mansouri et al. | State-of-the-art english to persian statistical machine translation system | |
Tschuggnall et al. | Countering Plagiarism by Exposing Irregularities in Authors' Grammar | |
Ogrodniczuk et al. | End-to-end coreference resolution baseline system for Polish | |
Hsieh et al. | Introduction to CKIP Chinese spelling check system for SIGHAN Bakeoff 2013 evaluation | |
Sirts et al. | Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts. | |
CN112287077A (en) | Statement extraction method and device for combining RPA and AI for document, storage medium and electronic equipment | |
Adams et al. | Inducing bilingual lexicons from small quantities of sentence-aligned phonemic transcriptions | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |