KR101638953B1 - Automatic Anaylising and correcting System for Online Webpage text - Google Patents

Automatic Anaylising and correcting System for Online Webpage text Download PDF

Info

Publication number
KR101638953B1
KR101638953B1 KR1020150004265A KR20150004265A KR101638953B1 KR 101638953 B1 KR101638953 B1 KR 101638953B1 KR 1020150004265 A KR1020150004265 A KR 1020150004265A KR 20150004265 A KR20150004265 A KR 20150004265A KR 101638953 B1 KR101638953 B1 KR 101638953B1
Authority
KR
South Korea
Prior art keywords
information
text
punctuation
comparison
analysis
Prior art date
Application number
KR1020150004265A
Other languages
Korean (ko)
Inventor
김종범
이대로
이성헌
Original Assignee
김종범
이대로
이성헌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김종범, 이대로, 이성헌 filed Critical 김종범
Priority to KR1020150004265A priority Critical patent/KR101638953B1/en
Application granted granted Critical
Publication of KR101638953B1 publication Critical patent/KR101638953B1/en

Links

Images

Classifications

    • G06F17/273
    • G06F17/277

Landscapes

  • Machine Translation (AREA)

Abstract

The present invention relates to an automatic analyzing and correcting system for online webpage texts. More specifically, the present invention relates to a system which automatically analyzes a lot of texts existing in online internet webpages, analyzes a frequency of a specific text and typos, and corrects the typos, wrong expressions, and phrases and changes foreign words or Chinese characters into Korean words and shows them. The automatic analyzing and correcting system comprises: a compression vocabulary server, an information input part, an information processing part, and an information showing part.

Description

온라인상 텍스트 자동분석·수정시스템{Automatic Anaylising and correcting System for Online Webpage text} [0001] The present invention relates to an automatic analyzing and correcting system for online texts,

본 발명은 온라인상 텍스트 자동분석·수정시스템에 관한 것으로서 구체적으로는, 온라인 인터넷 웹페이지에 존재하는 수많은 텍스트를 자동으로 분석하여 특정 텍스트의 사용빈도, 오탈자여부 등을 분석하고, 오탈자 및 잘못된 표현, 문구를 정정하되 특히 외래어나 한자어를 우리말인 한글로 알맞게 수정하여 현시해 주는 시스템에 관한 것이다.
More particularly, the present invention relates to a system and method for automatically analyzing and correcting text on the Internet, analyzing a large number of texts existing in an online Internet web page, analyzing the frequency of use of a specific text, It is about the system which revises the phrase, especially the foreign language and the Chinese character, and corrects it to Korean.

웹기반의 정보공유가 활성화되면서 제공되는 정보의 홍수는 곧 언어의 홍수로 대변된다. 우리가 사용하는 문자들은 온라인 상에서 다양한 형태로 이용되며 수천, 수만개의 문서들이 온라인상에서 웹페이지의 형태로 열람되고 현시되게 된다. 간혹 문서, 웹페이지에서 사용되는 단어들은 무분별하게 변형되기도 하며, 오탈자가 포함되어 있음에도 이를 간과하고 글을 게시하게 되기도 한다. As the web-based information sharing is activated, the flood of information provided is represented by the flood of language. The characters we use are used in various forms online, and thousands or tens of thousands of documents are viewed and displayed online in the form of web pages. Sometimes words used in documents and web pages are transformed indiscriminately, and even if they contain typographical errors, they may be overlooked and posted.

일반적으로 한글, 워드와 같이 문서프로그램에서 작성되는 문장에 대해서는 직접 문서 프로그램에서 오탈자를 찾아내어 문법적으로 문제가 있는 표현임을 줄처리 등의 다양한 방식으로 알려준다. 그러나, 이는 작성되는 문구를 즉각적으로 분석해 주는 점에 의미가 있으나, 온라인상에서 웹페이지 관련 프로그램 언어로 작성된 웹페이지 문서에서는 이러한 문제를 해결해 주는 기능의 탑재가 쉽지 않다. Generally, for sentences written in a document program, such as Hangul and Word, a punctuation is directly found in a document program, and it is indicated in various ways such as processing that the grammatical problem is expressed. However, it is meaningful to immediately analyze the written text, but it is not easy to install the function to solve this problem in the web page document written in the programming language related to the web page online.

또한 온라인상에서 원하는 페이지로의 이동은 "URL 주소"를 이용하여 주로 접속하게 되는데, 어떤 웹페이지로 접속하였을 때 해당 페이지에서 사용된 문장, 문구, 단어가 어떤 것이 있는지, 그 사용빈도는 어떠한 지에 대한 분석에 대해서는 여전히 수기로 진행되는 부분이 있다. In addition, the movement to the desired page online is mainly accessed by using the "URL address". When the user accesses the web page, it is possible to determine the sentence, the phrase and the word used in the page, There is still part of the analysis that goes on with the manual.

따라서 단순히 문서프로그램에서 오탈자나 문법적 오류를 추출하는 방식과는 달리 현시된 웹페이지의 문장, 문구 등을 분석하는 시스템의 개발이 필요하다.
Therefore, it is necessary to develop a system for analyzing the sentences, phrases, etc. of the displayed web page, unlike the method of extracting misplaced or grammatical errors in a document program.

이와 같은 부분에서 선행기술은 다음과 같은 문헌이 존재한다.
In this respect, the prior art has the following documents.

대한민국 공개특허공보 제10-2013-0049684호 "소셜 다이얼로그 청취, 분석 및 연결 시스템 및 방법"은 시스템 사용자가 하나 이상의 주요 용어들에 기반한 소셜 미디어 콘텐트를 청취하고 분석할 수 있는 SLAE 시스템과 방법의 실시예가 여기에서 설명되고 있다. 시스템은 상기 주요 용어들을 확장하고, 이 확장된 용어들에 근거한 부가적인 소셜 미디어 콘텐트를 청취할 수 있으며, 사용자로 하여금 다수의 캠페인을 통한 소셜 미디어 콘텐트에 관련된 소셜 미디어 참가자들에게 연결될 수 있게 하는 발명에 대한 것이다. 이는 주요 용어에 기반한 콘텐츠 및 이와 유사한 용어에 대한 콘텐츠를 수집하여 주는 것에 촛점이 맞춰져 있으므로, 웹페이지를 구성하는 문장, 단어 등의 분석과는 거리가 멀다.Korean Patent Laid-Open Publication No. 10-2013-0049684 entitled " Social Dialog Listening, Analysis and Linking System and Method "discloses an SLAE system and method in which a system user can listen to and analyze social media content based on one or more key terms An example is described here. The system can extend these key terms, listen to additional social media content based on these expanded terms, and enable users to connect to social media participants associated with social media content via multiple campaigns. Lt; / RTI > This focuses on collecting content for key term-based content and similar terms, so it is far from analyzing sentences, words, etc. that make up a web page.

또한 대한민국 등록특허 제10-0818978호 " 왑 페이지의 한글 표시 및 한글 입력을 수행하는 이동통신단말장치 및 한글 입출력 방법 및 그 방법을 제공하는 서비스 서버"는 왑 페이지의 한글 표시 및 한글 입력을 수행하는 이동통신 단말장치 및 한글 입출력 방법 및 그 방법을 제공하는 서비스 서버에 관한 것으로, 이동통신 단말이 접속한 무선 인터넷 망에서 존재하는 서버로부터 상기 이동통신 단말이 접속한 왑 페이지 상의 한글 텍스트 부분을 이미지로 변환한 한글 출력 이미지를 수신하여 출력하는 한글 출력 처리부 및 상기 이동통신 단말의 키패드에 한글자판을 할당하고, 상기 한글자판이 할당된 키패드를 통하여 한글 텍스트가 입력되도록 하는 한글 입력 프로그램을 상기 서버로부터 로딩하여 상기 입력된 한글 텍스트를 상기 왑 페이지 상의 텍스트를 입력받는 영역에 표시하는 한글 입력 처리부로 구성되어, 한글 입출력 기능이 내장되지 않는 이동통신 단말기에서도 왑 페이지 상에서 기존에 화면에 표시할 수 없었던 한글을 표시할 수 있고, 또한 사용자로부터 한글 입력이 가능한 발명에 대한 것이다. 이는 왑 기반으로 구성되어 있으며, 한글의 입출력이 어려운 단말기에서 한글의 입출력 부분을 이미지화하여 표기하는 기술을 이용하는 점에 특징이 있다. 그러나 웹페이지를 구성하는 한글로 이루어진 문장, 문구, 단어 등을 분석하는 기술은 개시되어 있지 않다. Also, Korean Patent Registration No. 10-0818978 entitled " Mobile communication terminal device performing Hangul input and Korean input of Wap page, and service server providing Hangul input output method and method thereof " The present invention relates to a mobile communication terminal apparatus and a service server for providing a method of and a Korean input / output method for a mobile communication terminal apparatus, A Hangul output processing unit for receiving and outputting the converted Hangul output image, a Korean Hangul keyboard is assigned to the keypad of the mobile communication terminal, and a Korean Hangul input program for inputting Korean Hangul text through the keypad assigned the Hangul Hangul keyboard is loaded from the server The input Hangul text is converted into a text And a Hangul input processing unit for displaying Hangul in the area where the Hangul input is performed. Also, even in a mobile communication terminal in which the Hangul input / output function is not built, Hangul that can not be displayed on the screen can be displayed on the wap page. It is about possible inventions. This is characterized by using a technology that is composed of a WAP-based device and displays the input and output portions of Hangul in an image on a terminal having difficulty in input and output of Hangul. However, a technique for analyzing sentences, phrases, words, and the like made up of Hangul, which constitute web pages, is not disclosed.

또한 한국어가 한글, 한자어가 섞어있는 구조에서 순우리말로 순화된 표현이 최근에 많이 늘어나기는 했지만 여전히 불필요한 한자어 표현이 잔재하고 있으며, 외래어나 일본식 한자어 표현 등이 여전히 난무하고 있어 우리말에 맞는 표현이나 단어로 수정해 줄 필요가 있다. In addition, in the structure in which Korean is mixed with Hangul and Hanja, the expressions that have been refined to pure Korean have increased a lot in recent years, but there are still unnecessary expressions of Hanja, and expressions of foreign words or Japanese Hanja are still vast. You need to fix it.

[참고도 1][Reference Figure 1]

Figure 112015002953548-pat00001
Figure 112015002953548-pat00001

상기 [참고도 1]은 우리말배움터(http://urimal.cs.pusan.ac.kr/urimal_new/에서 제공하는 한국어 맞춤법/문법검사기 팝업창을 띄운 화면을 캡쳐한 것인데, 이는 웹사이트의 일부 문장을 복사하여 상기 팝업창에 붙여넣어 검사실행버튼을 누름으로써 해당 문장의 맞춤법 및 문법의 정확성을 검사해 주고 있다. [Reference figure 1] is a capture of a screen displaying the Korean spelling / grammar checker pop-up window provided by Korean language course (http://urimal.cs.pusan.ac.kr/urimal_new/) Copy and paste it into the pop-up window and check the accuracy of the spelling and grammar of the sentence by pressing the test execution button.

그러나, 웹사이트에서의 다량의 문서의 검사가 필요한 경우, 웹사이트에서 검사를 원하는 일부 문단을 복사하고, 해당 팝업창에 붙여넣어 검사하는 과정을 다수번 반복하여야 하는 점은 고려하지 않고 있어, 대량 데이터의 검사, 분석이 사용자 입장에서는 불편함으로 여전히 남아 있으며, 사용자가 잘못된 표현 등의 오탈자를 수정된 형태로 재현시된 화면을 볼 수 있는 것이 아니므로 사용자에겐 여전히 불편함으로 남는다.
However, when it is necessary to check a large amount of documents on a web site, it is not considered that the process of copying some paragraphs desired to be inspected on the web site and pasting them to the pop-up window to check them many times, Is still inconvenient for the user, and the user can not view the reproduced image in the corrected form of the erroneous expression or the like, which is still inconvenient to the user.

[문헌 1] 대한민국 공개특허공보 제10-2013-0049684호 "소셜 다이얼로그 청취, 분석 및 연결 시스템 및 방법", 2013.05.14[Patent Document 1] Korean Patent Laid-Open Publication No. 10-2013-0049684 "Social Dialogue Listening, Analysis and Connection System and Method ", 2013.05.14 [문헌 2] 대한민국 등록특허 제10-0818978호 " 왑 페이지의 한글 표시 및 한글 입력을 수행하는 이동통신단말장치 및 한글 입출력 방법 및 그 방법을 제공하는서비스 서버", 2008.03.27.[Patent Document 2] Korean Patent Registration No. 10-0818978 entitled " Mobile communication terminal device performing Hangul input and Hangul input of WAP page, and Korean I / O method and service server providing the method ", 2008.03.27.

상기 문제점을 해결하기 위하여 본 발명에서는 온라인 웹페이지에 존재하는 오탈자를 우리말 맞춤법에 맞추어 자동으로 수정하고 잘못된 표현의 외래어, 일본식 한자표현 등을 순우리말에 맞추어 수정한 결과를 현시해 주거나 수정된 웹페이지를 제공하는 시스템을 개발하고자 한다.
In order to solve the above problem, according to the present invention, a punctuation present in an online web page is automatically corrected in accordance with the spelling of Korean, and the result of correcting the foreign words of the wrong expression, the Japanese Chinese character expression, And to develop a system that provides the

특히 이를 위하여 시스템에 웹페이지 전체를 복사하여 넣는 방식이 아니라 URL 주소를 입력함으로써 해당 URL 주소에서 접속될 수 있는 상·하위 웹페이지들에 포함된 텍스트를 추출하고, 해당 텍스트들을 보유한 데이터베이스와 비교분석하여 데이터베이스의 분류기준에 따라 텍스트들을 분석한 결과를 현시하여 주는 시스템을 개발하고자 한다.
In particular, it is not a method of copying the entire web page into the system, but rather extracting the text contained in the upper and lower web pages that can be accessed from the URL address by inputting the URL address, And analyze the text according to the classification criteria of the database.

또한 이미지로 저장된 텍스트 역시 추출하여 분석할 수 있는 시스템을 함께 제공한다.
It also provides a system for extracting and analyzing text stored as images.

상기 과제를 해결하기 위하여 본 발명에서는 특정 분류기준에 의에 단어 또는 문구가 저장된 DB(DataBase)를 하나 이상 구비한 비교어휘서버(100); 입력창을 생성하여 분석할 온라인 웹페이지의 분석대상정보 및 상기 비교어휘서버(100)의 하나 이상의 DB를 입력받아 비교대상정보를 수집하는 정보입력부(200); 상기 비교어휘서버(100) 및 정보입력부(200)와 유·무선통신을 통하여 연동되어 있어 상기 분석대상정보로부터 수집된 텍스트정보를 상기 비교대상정보와 비교분석하는 정보처리부(300); 및 상기 정보처리부(300)에서 상기 비교대상정보에 매칭된 텍스트정보를 수집하여 이를 현시하는 정보현시부(400);를 포함하여 구성되는 온라인상 텍스트 자동분석·수정시스템을 제공함을 목적으로 한다.
In order to solve the above problems, the present invention provides a comparison vocabulary server 100 having one or more DBs (Data Bases) in which words or phrases are stored according to specific classification criteria. An information input unit 200 for generating analysis information of an on-line web page to be analyzed and generating one or more input windows and collecting comparison target information by inputting one or more DBs of the comparison vocabulary server 100; An information processor 300 interlocked with the comparison lexicon server 100 and the information input unit 200 through wireless communication to compare the text information collected from the analysis target information with the comparison target information; And an information display unit 400 for collecting and displaying the text information matched to the comparison object information in the information processing unit 300. The present invention also provides an automatic online text automatic analysis and correction system.

또한 본 발명은 상기 비교어휘서버(100)는 오탈자정보를 포함하는 오탈자DB에 대한 것으로서, 상기 정보입력부(200)에서 생성된 비교대상정보에는 상기 오탈자DB가 포함되어 있어 상기 정보처리부(300)에서 정보분석하여 상기 텍스트정보 중 존재하는 오탈자를 추출하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공함을 목적으로 한다.
Also, the comparison lexical server 100 of the present invention is related to a punctuation DB including punctuation information. The punctuation information DB generated by the information input unit 200 includes the punctuation DB, And analyzing the information and extracting the punctuation present in the text information. The present invention also provides an automatic on-line text analysis and correction system.

또한 본 발명은 상기 비교어휘서버(100)의 오탈자DB는 오탈자정보 및 각 오탈자정보를 수정한 대체어정보를 포함하고 있고, 상기 정보현시부(400)가 상기 분석대상정보의 웹페이지를 동일하게 재현하여 현시하되, 상기 정보처리부(300)에서 추출된 오탈자정보에 대하여는 상기 대체어정보로 대체하여 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공함을 목적으로 한다.
In addition, the present invention is characterized in that the punctuation DB of the comparison lexicon server 100 includes punctuation information and substitute information that is obtained by modifying the punctuation information, and the information presentation unit 400 identifies the same web page The text information extracted by the information processing unit 300 is replaced with the substitute word information and displayed. The present invention also provides an automatic online text automatic analysis and correction system.

또한 본 발명은 상기 정보처리부는, 상기 웹페이지상의 이미지정보를 분석하여 상기 이미지정보에 포함된 텍스트를 추출하여 상기 비교대상정보와 매칭시켜 비교분석하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공함을 목적으로 한다.
The information processing unit analyzes the image information on the web page, extracts the text included in the image information, and matches the comparison information with the comparison information to analyze and analyze the image on the web page. With the goal of providing the same.

또한 본 발명은 상기 정보입력부의 분석대상정보는 온라인상의 URL주소(uniform resource locator) 및 상기 URL주소에 포함 또는 연동된 웹페이지 중 분석할 웹페이지의 개수 또는 웹페이지 범위를 포함하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공함을 목적으로 한다.
The present invention is characterized in that the analysis target information of the information input unit includes a URL address (uniform resource locator) on-line and a number of web pages to be analyzed or a web page range among the web pages included in or linked with the URL address It is aimed to provide automatic analysis and correction system for online texts.

또한 본 발명은 상기 정보현시부(400)는, 상기 텍스트정보가 검색된 빈도수, 해당 텍스트정보가 포함된 문장 또는 문구, 상기 텍스트정보의 URL주소 또는 하위페이지를 포함하는 출처정보를 상기 텍스트정보와 함께 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공함을 목적으로 한다.
In addition, the information display unit 400 may display source information including a frequency at which the text information is searched, a sentence or phrase including the corresponding text information, a URL address of the text information, or a lower page with the text information And a system for automatically analyzing and correcting text on the Internet, which is characterized by being displayed.

본 발명의 온라인상 텍스트 자동분석·수정시스템에 따르면 다음과 같은 효과가 있다.According to the on-line text automatic analysis and correction system of the present invention, the following effects are obtained.

1. 본 발명에서는 대량의 텍스트를 분석하여 오탈자가 검색되는 경우에는 이를 우리말, 즉 한국어 맞춤법에 맞게, 순화된 우리말 표현에 맞게 수정해 주므로 한글 발전, 정확한 한글표현의 정착에 이바지할 수 있다. 1. In the present invention, when a punctuation is searched for by analyzing a large amount of text, it is modified to suit the expression of Korean, that is, the Korean spelling in accordance with the Korean spelling, thereby contributing to the development of Korean language and accurate Korean language expression.

2. 특히 웹페이지 형태로 공급되는 대량의 텍스트들을 URL주소를 입력하는 것만으로도 해당 페이지 또는 그 하위페이지들의 텍스트정보를 대량으로 분석할 수 있으므로 통계자료 확보가 간편하다. 2. Especially, it is easy to obtain statistical data because it is possible to analyze a large amount of text information of a page or its lower pages by simply inputting a URL address of a large amount of text supplied in a web page form.

3. 또한 웹페이지에서 이미지로 저장되어 있는 텍스트까지 문자로 인식하여 수집하도록 구성되어 있기 때문에 대량의 텍스트 분석에서 누락되는 텍스트가 없어 정확한 통계자료의 확보가 가능하다.
3. In addition, since the web page is configured to recognize and collect texts stored as images, accurate statistical data can be obtained because there is no missing text in a large amount of text analysis.

[도 1]은 본 발명의 온라인상 텍스트 자동분석·수정시스템의 대략적인 도시도이다.
[도 2]는 본 발명의 온라인상 텍스트 자동분석·수정시스템의 대략적인 실시도시도이다.
[도 3]은 본 발명의 온라인상 텍스트 자동분석·수정시스템의 실시결과예이다.
[도 4]는 본 발명의 온라인상 텍스트 자동분석·수정시스템의 실시결과예이다.
[도 5]는 본 발명의 온라인상 텍스트 자동분석·수정시스템의 실시결과예이다.
[도 6]은 본 발명의 온라인상 텍스트 자동분석·수정시스템에서 오탈자가 대체어정보로 수정된 웹페이지의 실시결과예이다.
[도 7]은 본 발명의 온라인상 텍스트 자동분석·수정시스템의 대략적인 흐름도이다.
1 is a schematic diagram of a system for automatically analyzing and correcting text on-line in the present invention.
2 is a schematic diagram of an automatic online text automatic analysis / correction system of the present invention.
[Fig. 3] shows an example of the result of the online text automatic analysis / correction system of the present invention.
4 is an example of the result of the online text automatic analysis / correction system of the present invention.
[Fig. 5] shows an example of the result of the online text automatic analysis / correction system of the present invention.
FIG. 6 is an example of a result of the execution of a web page in which a misreader is replaced with alternate word information in an online-text automatic analysis / correction system of the present invention.
FIG. 7 is a schematic flowchart of an automatic online text automatic analysis / correction system of the present invention.

본 발명은 특정 분류기준에 의에 단어 또는 문구가 저장된 DB(DataBase)를 하나 이상 구비한 비교어휘서버(100); 입력창을 생성하여 분석할 온라인 웹페이지의 분석대상정보 및 상기 비교어휘서버(100)의 하나 이상의 DB를 입력받아 비교대상정보를 수집하는 정보입력부(200); 상기 비교어휘서버(100) 및 정보입력부(200)와 유·무선통신을 통하여 연동되어 있어 상기 분석대상정보로부터 수집된 텍스트정보를 상기 비교대상정보와 비교분석하는 정보처리부(300); 및 상기 정보처리부(300)에서 상기 비교대상정보에 매칭된 텍스트정보를 수집하여 이를 현시하는 정보현시부(400);를 포함하여 구성되는 온라인상 텍스트 자동분석·수정시스템을 제공한다.
The present invention includes a comparison vocabulary server 100 having one or more DBs (Data Bases) storing words or phrases according to a specific classification standard; An information input unit 200 for generating analysis information of an on-line web page to be analyzed and generating one or more input windows and collecting comparison target information by inputting one or more DBs of the comparison vocabulary server 100; An information processor 300 interlocked with the comparison lexicon server 100 and the information input unit 200 through wireless communication to compare the text information collected from the analysis target information with the comparison target information; And an information display unit (400) for collecting text information matched to the comparison object information in the information processing unit (300) and displaying the collected text information.

또한 본 발명은 상기 비교어휘서버(100)는 오탈자정보를 포함하는 오탈자DB에 대한 것으로서, 상기 정보입력부(200)에서 생성된 비교대상정보에는 상기 오탈자DB가 포함되어 있어 상기 정보처리부(300)에서 정보분석하여 상기 텍스트정보 중 존재하는 오탈자를 추출하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다.
Also, the comparison lexical server 100 of the present invention is related to a punctuation DB including punctuation information. The punctuation information DB generated by the information input unit 200 includes the punctuation DB, And analyzing the information to extract a punctuation present in the text information.

또한 본 발명은 상기 비교어휘서버(100)의 오탈자DB는 오탈자정보 및 각 오탈자정보를 수정한 대체어정보를 포함하고 있고, 상기 정보현시부(400)가 상기 분석대상정보의 웹페이지를 동일하게 재현하여 현시하되, 상기 정보처리부(300)에서 추출된 오탈자정보에 대하여는 상기 대체어정보로 대체하여 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다.
In addition, the present invention is characterized in that the punctuation DB of the comparison lexicon server 100 includes punctuation information and substitute information that is obtained by modifying the punctuation information, and the information presentation unit 400 identifies the same web page The text information extracted by the information processing unit 300 is replaced with the substitute word information, and the automatic text analysis and correction system is provided.

또한 본 발명은 상기 정보처리부는, 상기 웹페이지상의 이미지정보를 분석하여 상기 이미지정보에 포함된 텍스트를 추출하여 상기 비교대상정보와 매칭시켜 비교분석하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다.
The information processing unit analyzes the image information on the web page, extracts the text included in the image information, and matches the comparison information with the comparison information to analyze and analyze the image on the web page. .

또한 본 발명은 상기 정보입력부의 분석대상정보는 온라인상의 URL주소(uniform resource locator) 및 상기 URL주소에 포함 또는 연동된 웹페이지 중 분석할 웹페이지의 개수 또는 웹페이지 범위를 포함하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다.
The present invention is characterized in that the analysis target information of the information input unit includes a URL address (uniform resource locator) on-line and a number of web pages to be analyzed or a web page range among the web pages included in or linked with the URL address Online text automatic analysis and correction system is provided.

또한 본 발명은 상기 정보현시부(400)는, 상기 텍스트정보가 검색된 빈도수, 해당 텍스트정보가 포함된 문장 또는 문구, 상기 텍스트정보의 URL주소 또는 하위페이지를 포함하는 출처정보를 상기 텍스트정보와 함께 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다.
In addition, the information display unit 400 may display source information including a frequency at which the text information is searched, a sentence or phrase including the corresponding text information, a URL address of the text information, or a lower page with the text information It also provides automatic analysis and correction system for on-line text, which is characterized by being displayed.

이하에서는 첨부된 도면을 참조하여 본 발명에 대하여 구체적으로 설명한다.
Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

[도 1]은 본 발명의 온라인상 텍스트 자동분석·수정시스템에 대한 대략적인 도시도이며, [도 2]는 본 발명의 온라인상 텍스트 자동분석·수정시스템의 대략적인 실시도시도이다. 또한 [도 7]은 본 발명의 온라인상 텍스트 자동분석·수정시스템의 대략적인 흐름도이다. 이를 참조하면 본 발명의 시스템은 비교어휘서버(100), 정보입력부(200), 정보처리부(300) 및 정보현시부(400)를 포함하여 구성됨을 확인할 수 있다. 상기 각 구성요소는 물리적·논리적 구성방식을 불문하는 바, 상기 구성요소가 하나의 단말기로 구성될 수도 있으며, 상기 정보입력부(200), 정보처리부(300) 및 정보현시부(400)가 하나의 단말기로 구성되고, 상기 비교어휘서버(100)와 유무선통신으로 연동된 형태를 취할 수도 있다.
FIG. 1 is a schematic diagram of an online text automatic analysis / correction system of the present invention, and FIG. 2 is a schematic diagram of an automatic online text automatic analysis / correction system of the present invention. 7 is a flow chart of an automatic online text automatic analysis / correction system of the present invention. The system of the present invention includes a comparison lexicon server 100, an information input unit 200, an information processing unit 300, and an information display unit 400. The information input unit 200, the information processing unit 300, and the information generating unit 400 may be implemented as a single terminal, Terminal, and may be interlocked with the comparison lexicon server 100 by wired / wireless communication.

먼저 상기 비교어휘서버(100)는 특정 분류기준에 따라 단어 또는 문구가 저장된 DB(DataBase)를 하나 이상 구비하는 것을 특징으로 한다. 상기 비교어휘서버(100)는 하나 이상의 세부적인 DB를 구성하게 되는데, 단어 또는 문구에 대한 분류기준을 미리 정하여 비교어휘들을 수집하여 DB를 구성할 수도 있으며, 사전에 해당 분류기준에 따른 비교어휘들을 다량 저장한 DB를 구축하여 둘 수도 있다. 상기 분류기준에는 제한이 없으며, 그 실시예로는 외래어, 외국어(영어,일어 등), 외국어 한글의 혼합어, 순우리말, 어려운 한자어, 아이템, 애니메이션 등과 같은 외국어지만 한글로 대체가능한 전문용어에 따른 분류기준을 세울 수 있다. 또한 특정 분야에서 주로 많이 사용하는 전문용어에 대해 정치관련용어, 행정용어, 법률용어 의학용어 등으로 세부적으로 DB를 구축할 수 있으며, 외국어도 영어, 일어, 중국어, 스페인어, 필리핀어 등 각국별 언어를 DB로 구축할 수 있다. First, the comparison lexicon server 100 includes at least one DB (Data Base) storing words or phrases according to a specific classification criterion. The comparison vocabulary server 100 constitutes one or more detailed DBs. The comparison vocabularies server 100 may form a DB by collecting comparison vocabulary by predetermining a classification criterion for a word or a phrase, A large amount of stored DB can be constructed. There are no limitations on the classification criteria. Examples of such classification include foreign language, foreign language (English, Japanese, etc.), mixed language of foreign languages, foreign languages such as Chinese characters, difficult Chinese characters, items and animations, Classification criteria can be established. In addition, it is possible to build detailed DBs for political terms, administrative terms, legal terms, medical terminology, and so on for specialized jargon which is mainly used in a specific field. Also, foreign languages can be translated into various languages such as English, Japanese, Chinese, Spanish and Filipino. DB can be constructed.

특히 외래어 순화와 같이 올바른 한글 사용을 위하여 올바른 한글로 대체할 수 있는 DB의 자료로서 표준국어대사전, 외래어사전외래어표기법, 행정순화용어집, 한글문화연대한자사전, 한글문화연대외국어사전을 데이타(data)화하여 저장할 수 있다.
Especially, it is possible to substitute correct Korean language for correct Korean language such as foreign language refinement as standard Korean language dictionary, foreign language dictionary foreign language notation, administrative cleanup glossary, Korean language culture, Chinese character dictionary, And stored.

오탈자나 잘못된 표현을 바로잡고, 띄어쓰기, 맞춤법을 바로잡기 위하여 오탈자DB를 구축할 수 있는데, 상기 오탈자는 잘못 표기되거나 문법에 맞지않는 경우를 가정하여 정확한 표현에 대한 대체어정보를 함께 저장하여 구축하는 것이 바람직하다. 상기 대체어정보의 데이터는 표준국어대사전, 외래어사전외래어표기법, 행정순화용어집, 한글문화연대한자사전, 한글문화연대외국어사전을 데이타를 이용할 수 있다.A punctuation DB can be constructed to fix punctuation or erroneous expressions, correct spacing, and correct spelling. The punctuation may be erroneously written or superseded by the grammar, . The data of the substitute word information can be data of standard Korean dictionary, foreign word dictionary foreign language notation, administrative smoothing glossary, Korean culture solidarity Chinese dictionary, Korean culture solidarity foreign language dictionary data.

예를 들어 "강남콩"이라는 오탈자에 대해 "강낭콩"이라는 대체어를 함께 저장하여 두고, 추후 "강남콩"이라는 오탈자가 존재하는 경우에는 이에 대해 수정이 가능하도록 구성할 수 있다.For example, a substitute word "kidney bean" may be stored together with a caption called "kidney bean paste ", and if there is a caption called" kidney bean paste "

또한 일본식 한자나, 잘못된 외래어 표현도 오탈자DB에 저장될 수 있는데, 예를 들어 "자부동"이라는 오탈자정보에 대해서는 "방석"이라는 대체어정보를 함께 저장하여 본 발명의 시스템에서 자동분석하여 수정되도록 하기 위한 기반을 마련하고 있다.In addition, Japanese Kanji characters and incorrect foreign language expressions can be stored in the novelty DB. For example, for the caption information called "autobiography ", the substitute words" cushion " And has set a foundation for

상기 정보입력부(200)는 입력창을 생성하여 분석할 온라인상의 웹페이지의 텍스트정보를 입력받아 분석대상정보를 생성하고, 상기 비교어휘서버(100)의 하나 이상의 DB를 입력받아 비교대상정보를 생성하는 역할을 수행한다. 본 발명의 텍스트 분석을 위해서는 분석하고자 하는 대상이 필요한데, 본 발명에서는 온라인상의 웹페이지를 대량으로 분석하는 점에 촛점을 맞추고 있으며, 대량분석을 위한 웹페이지의 텍스트정보를 분석대상정보로 입력받을 필요가 있다. 분석대상정보를 입력받는 방식에는 제한이 없으나, 대량정보를 직접 타이핑함으로써 입력하는 경우에는 사용자 입장에서 번거로움이 발생한다.
The information input unit 200 generates an input window, generates text information of an on-line web page to be analyzed, generates analysis target information, receives one or more DBs of the comparison vocabulary server 100 and generates comparison target information . The text analysis of the present invention requires an object to be analyzed. The present invention focuses on analyzing a large number of web pages on-line, and it is necessary to input text information of a web page for mass analysis as analysis object information . There is no limit to the method of receiving the information to be analyzed, but when inputting large amount of information by directly typing it, the user inconvenience occurs.

또한 대량정보를 copy & paste로 입력창에 붙여넣기를 하는 방식도 까다로우므로, 본 발명에서는 특히 URL주소를 입력하는 것만으로도 해당 URL주소에 포함된 웹페이지, 더 나아가서는 해당 URL주소와 연관되어 링크된 웹페이지에 존재하는 텍스트정보를 분석대상정보로 입력되도록 구성함으로써 편의성을 높이고 있는 것이 일 특징에 해당한다. 이를 위해 본 발명은 상기 정보입력부의 분석대상정보는 온라인상의 URL주소(uniform resource locator) 및 상기 URL주소에 포함 또는 연동된 웹페이지 중 분석할 웹페이지의 개수 또는 웹페이지 범위를 포함하도록 구성할 수도 있다.
In addition, since the method of pasting bulk information into the input window by copy & paste is also difficult, in the present invention, particularly by inputting a URL address, a web page included in the URL address, And the text information existing in the linked web page is input as analysis target information, thereby improving convenience. To this end, the analysis target information of the information input unit may be configured to include a URL address (uniform resource locator) on-line and a number of web pages to be analyzed or a web page range among the web pages included in or linked with the URL address have.

또한 URL주소 내에서도 사용자가 일정 범위로 한정하여 분석하고 싶은 경우에는 URL주소와 함께 하부 웹페이지의 범위 또는 개수를 정할 수 있다. 예를 들어 하부 웹페이지로서 5개까지만 분석한다고 하거나, 웹페이지의 다수개의 플레임 중 상단의 제1플레임만 분석대상으로 하도록 설정할 수 있다.
In addition, within the URL address, if the user wants to limit the analysis to a certain range, the range or the number of the lower web page can be determined together with the URL address. For example, only five lower web pages may be analyzed, or only the first frame among the plurality of frames of the web page may be analyzed.

또한 상기 정보입력부(200)는 상기 분석대상정보를 분석하기 위하여 상기 비교어휘서버에서 어떤 DB의 정보를 비교대상정보로 할 것인지를 입력받을 필요가 있다. 예를 들어 상기 비교어휘서버(100)에서 외국어DB를 선택하는 경우에는 상기 분석대상정보에서 상기 외국어DB에 매칭되는 텍스트정보를 추출해 낼 수 있다. 또한 외국어DB, 정치용어DB와 같이 복수개의 DB를 선택하여 비교분석할 수도 있다.
In order to analyze the analysis target information, the information input unit 200 needs to receive information on which DB is to be used as comparison target information in the comparison vocabulary server. For example, when the comparison lexicon server 100 selects a foreign language DB, the text information matching the foreign language DB can be extracted from the analysis object information. Also, a plurality of DBs can be selected and compared and analyzed such as a foreign language DB and a political term DB.

또한 정보처리부(300)는 상기 비교어휘서버(100) 및 정보입력부(200)와 유·무선통신을 통하여 연동되어 있으며, 상기 분석대상정보에 포함된 웹페이지상의 텍스트정보를 수집하여 설정된 비교대상정보와 비교분석하는 기능을 수행한다. 상기 정보처리부(300)는 상기 정보입력부에서 생성된 분석대상정보와 비교대상정보를 실제로 분석하게 되는데, 상기 분석대상정보로 설정된 URL주소상의 웹페이지로 접속하여 해당 웹페이지의 코딩을 분석하여 텍스트정보를 추출할 수 있다. 상기 웹페이지는 XML문서 또는 HTML문서로서 Jave Script, Flash, C언어로 구성될 수 있으며, 텍스트정보만을 추출하여 이를 상기 비교대상정보에서 지정한 비교어휘서버상의 DB와 매칭시키게 된다. 특히 URL이 입력되면 해당 URL에 속하는 웹페이지를 웹크롤링(web crawling)기술을 이용하여 텍스트정보를 추출할 수 있다.Also, the information processing unit 300 is interlocked with the comparison lexicon server 100 and the information input unit 200 through wire / wireless communication, and collects text information on a web page included in the analysis target information, And performs a comparison and analysis function. The information processing unit 300 actually analyzes the analysis target information and the comparison target information generated in the information input unit. The information processing unit 300 accesses a web page on the URL address set as the analysis target information, analyzes the coding of the web page, Can be extracted. The web page may be configured as an XML document or an HTML document in Jave Script, Flash, or C language, and only the text information is extracted and matched with the DB on the comparison lexicon server specified in the comparison target information. In particular, when a URL is input, text information can be extracted using a web crawling technique for a web page belonging to the URL.

특히 상기 정보처리부는, 상기 웹페이지상의 이미지정보를 분석하여 상기 이미지정보에 포함된 텍스트를 추출하여 상기 비교대상정보와 매칭시켜 비교분석하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템을 함께 제공한다. 이는 상기 분석대상정보에서 텍스트정보를 추출하는 방식에 의하면 이미지정보 속에 포함된 텍스트정보는 추출되지 않는 문제점을 보완하기 위한 방식이다. In particular, the information processing unit analyzes the image information on the web page, extracts the text included in the image information, and matches the comparison information with the comparison information to perform a comparative analysis. do. This is a method for solving the problem that the text information included in the image information is not extracted according to the method of extracting the text information from the analysis object information.

이미지정보에 포함된 텍스트는 대체텍스트이거나 이미지텍스트일 수 있다. The text included in the image information may be alternative text or image text.

대체 텍스트의 경우에는 웹페이지 소스를 분석하여 텍스트정보를 추출해 낼 수 있다. 그러나 이미지 자체에 이미지로 저장된 이미지텍스트는 색채를 분석하는데, 동일한 색채로 구성된 이미지의 일부를 추출하고 그 이미지의 일부가 형성하는 모양이 영어, 한글, 일어 등의 철자와 동일하다고 판단되면 해당 이미지모양을 분석된 철자로 텍스트정보를 생성하고, 해당 텍스트정보와 DB의 비교대상정보와 비교하는 과정을 거쳐 분석이 이루어진다.
In the case of alternative text, the text information can be extracted by analyzing the web page source. However, image text stored as an image in the image itself is analyzed for color. When a part of an image composed of the same color is extracted and it is judged that the shape formed by a part of the image is the same as the spelling of English, Korean, The text information is generated with the analyzed spelling and the text information is compared with the information to be compared with the DB, and the analysis is performed.

마지막으로 정보현시부(400)는 상기 정보처리부(300)에서 상기 비교대상정보에 매칭된 텍스트정보를 수집하여 이를 현시하는 역할을 수행한다. 이는 정보처리부(300)에서 분석대상정보와 비교대상정보를 매칭시켜 추출된 텍스트정보를 화면에 현시하는 역할을 수행하는데, 특히 매칭시켜 추출된 텍스트정보를 상기 텍스트정보가 검색된 빈도수, 해당 텍스트정보가 포함된 문장 또는 문구, 상기 텍스트정보의 URL주소 또는 하위페이지를 포함하는 출처정보를 함께 현시하는 것을 일 특징으로 한다. Finally, the information generating unit 400 collects text information matched with the comparison information in the information processing unit 300 and plays a role of displaying the text information. The information processing unit 300 plays a role of displaying the extracted text information on the screen by matching the analysis object information and the comparison object information. In particular, the text information extracted by matching is a frequency of the text information, An embedded sentence or phrase, a URL address of the text information, or source information including a lower page.

[도 3] 내지 [도 6]은 본 발명의 온라인상 텍스트 자동분석·수정시스템의 실시결과예이다. [도 3] 및 [도 5]에서는 해당 분석대상정보의 텍스트정보를 분석하여 각 DB별로 해당 대상어의 추출갯수를 표시하였으며, [도 4]에서는 해당 대상단어가 추출된 부서, 출처정보, 추출된 문장을 함께 표시해주고 있다. FIGS. 3 to 6 are examples of the results of the online text automatic analysis / correction system of the present invention. In FIG. 3 and FIG. 5, the text information of the analysis target information is analyzed to display the number of extraction of the corresponding target word for each DB. In FIG. 4, the extracted departments, source information, The sentence is marked together.

이와 같이 분석내용을 현시함으로써 해당 URL주소의 웹페이지에서 사용된 단어의 활용형태에 대한 자료분석이 가능하며, 특히 오탈자를 분석하여 오탈자 발생이 빈번한 단어가 무엇인지를 확인할 수도 있다. By analyzing the contents of the analysis, it is possible to analyze data on the usage patterns of the words used in the web page of the corresponding URL address. In particular, by analyzing the punctuation, it is possible to check what the punctuation occurs frequently.

특히 본 발명은 상기 비교어휘서버(100)는 오탈자정보를 포함하는 오탈자DB에 대한 것으로서, 상기 정보입력부(200)에서 생성된 비교대상정보에는 상기 오탈자DB가 포함되어 있어 상기 정보처리부(300)에서 정보분석하여 상기 텍스트정보 중 존재하는 오탈자를 추출하는 것을 일 특징이 되며, 상기 비교어휘서버(100)의 오탈자DB는 오탈자정보 및 각 오탈자정보를 수정한 대체어정보를 포함하고 있고, 상기 정보현시부(400)가 상기 분석대상정보의 웹페이지를 동일하게 재현하여 현시하되, 상기 정보처리부(300)에서 추출된 오탈자정보에 대하여는 상기 대체어정보로 대체하여 현시하는 것을 일 특징으로 할 수 있다. 상기 정보처리부에서 분석대상정보와 비교대상정보인 오탈자DB의 오탈자정보를 매칭시켜 추출된 오탈자들은 상기 오탈자정보에 대응저장된 대체어정보로 대체되고, 상기 분석대상정보인 웹페이지의 소스코드 및 이미지정보 등을 그대로 다운받아 사용자단말기에서는 해당 웹페이지를 동일하게 재현하여 현시하되, 상기 오탈자만 대체어로 수정되어 올바른 표기로 변경된 웹페이지를 제공할 수 있다. Particularly, in the present invention, the comparative lexicon server 100 is related to a punctuation DB including punctuation information. The punctuation information DB generated by the information input unit 200 includes the punctuation DB, And analyzing the information to extract a punctuation present in the text information, wherein the punctuation DB of the comparison lexical server 100 includes punctuation information and substitute information corrected with the punctuation information, (400) reproduces the web page of the analysis target information in the same manner, and the punctuality information extracted from the information processing unit (300) is replaced with the alternative word information to be displayed. The puncturers extracted by matching the analysis target information and the punctuation information of the punctuation target DB as the target information are replaced with the replacement puncture information corresponding to the punctuation information, and the source code and the image information The user terminal can reproduce the web page in the same manner and display it, but it is possible to provide the web page changed to the correct notation by correcting only the misrecognizable word.

실시예로 "최근 겨울패션으로 레자가 유행하고 있습니다"를 "최근 겨울패션으로 인조가죽이 유행하고 있습니다"라고 수정될 수 있다. 이 때 "레자"는 일본식 표현이므로 "인조가죽"이란 대체어로 수정하게 되며, 이 때 오탈자의 조사는 대체어에 맞는 조사로 함께 수정되도록 구성할 수 있다. 이 때 상기 대체어에 맞는 조사를 함께 오탈자DB에 저장함이 바람직하다. As an example, it is said that "Reza is popular in recent winter fashion" and "Artificial leather is popular in recent winter fashion". At this time, "Reza" is a Japanese expression, so "artificial leather" will be replaced with a substitute language, and at this time, the researcher can be configured to revise the search for the alternative word. At this time, it is preferable that the search corresponding to the alternative word is stored in the punctuation DB together.

이는 [도 6]은 본 발명의 온라인상 텍스트 자동분석·수정시스템에서 오탈자가 대체어정보로 수정된 웹페이지의 실시결과예에서 확인할 수 있다
This can be confirmed in the example of the execution result of the web page in which the misreader is replaced with the alternate word information in the online automatic text analysis / correction system of the present invention

이와 같이 본 발명에 의하여 온라인에서 제공되는 대량의 텍스트정보를 분석하고 오탈자를 발견하게 되면 대체어로 자동수정하여 줌과 동시에 웹페이지상의 텍스트정보인 경우에는 대체어로 수정된 동일한 웹페이지를 생성하여 현시해 줌으로써 이용자가 올바른 언어표현을 접할 수 있는 효과가 있다.
As described above, according to the present invention, a large amount of text information provided on-line is analyzed, and when a misreader is found, the same word is automatically corrected as a substitute word and at the same time, The user can get the correct language expression.

이상에서 본 발명에 따른 온라인상 텍스트 자동분석·수정시스템의 구체적인 실시예와 함께 살펴보았다. 그러나 상기의 실시예 이외에도 본 발명과 균등한 범위에 속하는 수정 및 변형이 가능하다. 따라서 본 발명의 청구범위는 이 건 발명의 진정한 범위 내에 속하는 수정 및 변형을 포함한다.
The automatic text analysis and correction system for on-line text according to the present invention has been described above with reference to specific embodiments. However, modifications and variations falling within the scope of the present invention are possible in addition to the above embodiments. Accordingly, the claims of the present invention include modifications and variations that fall within the true scope of the present invention.

100 : 비교어휘서버
200 : 정보입력부
300 : 정보처리부
400 : 정보현시부
100: Comparative Vocabulary Server
200: Information input unit
300: Information processor
400: Information Display Department

Claims (6)

특정 분류기준에 의에 단어 또는 문구가 저장된 DB(DataBase)를 하나 이상 구비한 비교어휘서버(100);
입력창을 생성하여 분석할 온라인 웹페이지의 분석대상정보 및 상기 비교어휘서버(100)의 하나 이상의 DB를 입력받아 비교대상정보를 수집하는 정보입력부(200);
상기 비교어휘서버(100) 및 정보입력부(200)와 유·무선통신을 통하여 연동되어 있어 상기 분석대상정보로부터 수집된 텍스트정보를 상기 비교대상정보와 비교분석하는 정보처리부(300); 및
상기 정보처리부(300)에서 상기 비교대상정보에 매칭된 텍스트정보를 수집하여 이를 현시하는 정보현시부(400);
를 포함하여 구성되되,
상기 정보처리부는,
상기 웹페이지상의 이미지정보를 분석하여 상기 이미지정보에 포함된 텍스트를 추출하여 상기 비교대상정보와 매칭시켜 비교분석하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템.
A comparison vocabulary server 100 having one or more DBs (Data Bases) storing words or phrases in a specific classification criterion;
An information input unit 200 for generating analysis information of an on-line web page to be analyzed and generating one or more input windows and collecting comparison target information by inputting one or more DBs of the comparison vocabulary server 100;
An information processor 300 interlocked with the comparison lexicon server 100 and the information input unit 200 through wireless communication to compare the text information collected from the analysis target information with the comparison target information; And
An information display unit 400 for collecting and displaying text information matched to the comparison object information in the information processing unit 300;
, ≪ / RTI >
The information processing unit,
Analyzing the image information on the web page, extracting the text included in the image information, and comparing the extracted text with the comparison information to perform comparative analysis.
제1항에서,
상기 비교어휘서버(100)는 오탈자정보를 포함하는 오탈자DB에 대한 것으로서,
상기 정보입력부(200)에서 생성된 비교대상정보에는 상기 오탈자DB가 포함되어 있어 상기 정보처리부(300)에서 정보분석하여 상기 텍스트정보 중 존재하는 오탈자를 추출하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템.
The method of claim 1,
The comparative lexicon server 100 is for a punctuation DB including punctuation information,
Wherein the comparative object information generated by the information input unit 200 includes the punctuation DB, and the information processing unit 300 analyzes information to extract a punctuation present in the text information. Correction system.
제2항에서,
상기 비교어휘서버(100)의 오탈자DB는 오탈자정보 및 각 오탈자정보를 수정한 대체어정보를 포함하고 있고,
상기 정보현시부(400)가 상기 분석대상정보의 웹페이지를 동일하게 재현하여 현시하되, 상기 정보처리부(300)에서 추출된 오탈자정보에 대하여는 상기 대체어정보로 대체하여 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템.
3. The method of claim 2,
The punctuation DB of the comparison lexicon server 100 includes punctuation information and substitute information that is obtained by modifying the punctuation information,
Wherein the information presentation unit (400) reproduces the web page of the analysis target information in an identical manner, and the punctuation information extracted from the information processing unit (300) is replaced with the alternative word information and displayed Automatic text analysis and correction system.
삭제delete 제1항에서,
상기 정보입력부의 분석대상정보는 온라인상의 URL주소(uniform resource locator) 및 상기 URL주소에 포함 또는 연동된 웹페이지 중 분석할 웹페이지의 개수 또는 웹페이지 범위를 포함하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템.
The method of claim 1,
Wherein the analysis target information of the information input unit includes a URL address (uniform resource locator) on-line and a number of web pages to be analyzed or a web page range among the web pages included in or linked with the URL address. Analysis and modification system.
제1항에서,
상기 정보현시부(400)는,
상기 텍스트정보가 검색된 빈도수, 해당 텍스트정보가 포함된 문장 또는 문구, 상기 텍스트정보의 URL주소 또는 하위페이지를 포함하는 출처정보를 상기 텍스트정보와 함께 현시하는 것을 특징으로 하는 온라인상 텍스트 자동분석·수정시스템.
The method of claim 1,
The information display unit 400 displays,
Wherein the text information includes at least one of a frequency of the text information, a sentence or phrase including the text information, a URL address of the text information, or source information including a lower page, together with the text information. system.
KR1020150004265A 2015-01-12 2015-01-12 Automatic Anaylising and correcting System for Online Webpage text KR101638953B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150004265A KR101638953B1 (en) 2015-01-12 2015-01-12 Automatic Anaylising and correcting System for Online Webpage text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150004265A KR101638953B1 (en) 2015-01-12 2015-01-12 Automatic Anaylising and correcting System for Online Webpage text

Publications (1)

Publication Number Publication Date
KR101638953B1 true KR101638953B1 (en) 2016-07-12

Family

ID=56505386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150004265A KR101638953B1 (en) 2015-01-12 2015-01-12 Automatic Anaylising and correcting System for Online Webpage text

Country Status (1)

Country Link
KR (1) KR101638953B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090043A (en) * 2017-11-30 2018-05-29 北京百度网讯科技有限公司 Error correction report processing method, device and readable medium based on artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010112686A (en) * 2000-06-10 2001-12-21 윤기수 System and method for facilitating internet search by providing web document layout image and web site structure
KR100736561B1 (en) * 2005-12-28 2007-07-09 엘지전자 주식회사 Mobile communication terminal and device for wrong word correction and correction method thereof
KR20080010507A (en) * 2006-07-27 2008-01-31 엔에이치엔(주) Method for offering function of orthography and auto complete in on-line and system for executing the method
KR100818978B1 (en) 2006-11-30 2008-04-04 삼성네트웍스 주식회사 The method and the mobile communication terminal having service of displaying and inputting korean alphabet of wap webpage and the server providing the method
KR20080087057A (en) * 2007-01-03 2008-09-30 주식회사 알티캐스트 Partial linking method in the web-page
KR20130049684A (en) 2011-09-26 2013-05-14 봄 말콤 Social dialogue listening, analytics, and engagement system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010112686A (en) * 2000-06-10 2001-12-21 윤기수 System and method for facilitating internet search by providing web document layout image and web site structure
KR100736561B1 (en) * 2005-12-28 2007-07-09 엘지전자 주식회사 Mobile communication terminal and device for wrong word correction and correction method thereof
KR20080010507A (en) * 2006-07-27 2008-01-31 엔에이치엔(주) Method for offering function of orthography and auto complete in on-line and system for executing the method
KR100818978B1 (en) 2006-11-30 2008-04-04 삼성네트웍스 주식회사 The method and the mobile communication terminal having service of displaying and inputting korean alphabet of wap webpage and the server providing the method
KR20080087057A (en) * 2007-01-03 2008-09-30 주식회사 알티캐스트 Partial linking method in the web-page
KR20130049684A (en) 2011-09-26 2013-05-14 봄 말콤 Social dialogue listening, analytics, and engagement system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090043A (en) * 2017-11-30 2018-05-29 北京百度网讯科技有限公司 Error correction report processing method, device and readable medium based on artificial intelligence

Similar Documents

Publication Publication Date Title
CN108287858B (en) Semantic extraction method and device for natural language
CN106650943B (en) Auxiliary writing method and device based on artificial intelligence
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
Juola et al. A prototype for authorship attribution studies
US20090144049A1 (en) Method and system for adaptive transliteration
Fairon et al. A translated corpus of 30, 000 French SMS.
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
JP6693582B2 (en) Document abstract generation method, device, electronic device, and computer-readable storage medium
CN108280065B (en) Foreign text evaluation method and device
JP6626917B2 (en) Readability evaluation method and system based on English syllable calculation method
CN111125438A (en) Entity information extraction method and device, electronic equipment and storage medium
CN109918677B (en) English word semantic analysis method and system
KR102552811B1 (en) System for providing cloud based grammar checker service
KR101638953B1 (en) Automatic Anaylising and correcting System for Online Webpage text
KR101686114B1 (en) Method of automatic conversion to hanja by the koreansentence unit using an add-in program
CN113435213B (en) Method and device for returning answers to user questions and knowledge base
US10755594B2 (en) Method and system for analyzing a piece of text
Rees Online dictionaries and accessibility for people with visual impairments
JP2004334699A (en) Text evaluation device, text evaluation method, program, and storage medium
JP2005250525A (en) Chinese classics analysis support apparatus, interlingual sentence processing apparatus and translation program
CN115965017B (en) Multi-language input and analysis system and method based on development platform
CN112328737B (en) Spelling data generation method
US11935425B2 (en) Electronic device, pronunciation learning method, server apparatus, pronunciation learning processing system, and storage medium
KR101080880B1 (en) Automatic loanword-to-korean transliteration method and apparatus
Mahira et al. Enriching Grammatical Understanding of Using Japanese Part of Speech in Dokkai Learning with the AI-Powered Oyomi Application

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190424

Year of fee payment: 4