KR20050078655A - Dynamic keyword extraction and processing system - Google Patents
Dynamic keyword extraction and processing system Download PDFInfo
- Publication number
- KR20050078655A KR20050078655A KR1020050044714A KR20050044714A KR20050078655A KR 20050078655 A KR20050078655 A KR 20050078655A KR 1020050044714 A KR1020050044714 A KR 1020050044714A KR 20050044714 A KR20050044714 A KR 20050044714A KR 20050078655 A KR20050078655 A KR 20050078655A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- user
- search
- string
- displayed
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 사용자가 인터넷 항해와 검색을 행할 때 현재 검색중이거나 방문 중인 웹사이트의 정보를 바탕으로 향 후 사용자가 검색 또는 항해할 것으로 예상되는 검색 단어 및 관련 웹사이트 정보를 미리 준비함으로써 현재 페이지에서 추가 탐색 및 관련 정보 검색을 용이하게 하기 위한 것이다. 구체적으로 설명하면 사용자가 입력한 URL, 방문 중인 웹 사이트의 URL을 바탕으로 사용자의 현재 탐색 중인 키워드를 추출하며 이를 가공하여 향 후 사용자가 검색 또는 항해할 가능성이 높은 관련 단어, 이들에 대한 검색 결과 및 관련 사이트 목록을 미리 준비하고 사용자가 다른 사이트로의 항해나 추가의 검색 결과를 필요로 할 때 즉시 제공할 수 있게 준비하고 표시하는 것이다. 따라서 키워드의 추출과 가공 및 결과의 표시는 사용자의 항해와 병행하여 동시에 동적으로 처리 및 준비하는 처리 시스템이며 본 발명은 키워드를 추출하는 방법, 키워드를 가공하는 방법, 키워드를 이용하여 미리 연관된 단어와 웹 사이트 목록을 준비하고 검색을 미리 실행하여 사용자의 필요시 이러한 키워드와 관련 단어, 관련 사이트, 키워드와 관련 단어에 대한 검색 결과를 표시해 주는 방법 및 이를 수행하는데 필요한 시스템을 포함한다. When the user navigates and searches the Internet, the present invention prepares the search word and related website information which is expected to be searched or navigated by the user in advance based on the information of the website currently being searched or visited. It is intended to facilitate further searching and retrieval of related information. Specifically, it extracts the keyword you are currently browsing based on the URL you entered and the URL of the website you're visiting, and refines it to produce related words that are more likely to be searched or navigated by you in the future. And preparing a list of related sites in advance and preparing and displaying them for immediate delivery when the user needs navigation to another site or additional search results. Therefore, the extraction and processing of the keyword and the display of the result are processing systems that simultaneously process and prepare dynamically in parallel with the user's navigation. The present invention relates to a method of extracting a keyword, a method of processing a keyword, and a pre-associated word using a keyword. A method for preparing a list of web sites and executing a search in advance to display such keywords and related words, related sites, search results for the related keywords and related words when necessary, and a system for performing the search.
Description
기존의 웹 브라우저(S230)나 툴 바에서는 사용자가 주소 창에 키워드나 URL 등의 문자열을 입력하였을 때 해당 사이트에 대한 연결 또는 검색만을 지원하였다. 그러나 사용자가 입력하는 URL이나 웹 브라우저(S230)가 웹사이트에 접속되면서 자동으로 주소 창에 표시되는 URL 문자열을 가공하여 키 새로운 검색이나 웹사이트 연결을 위한 용도로 활용되지는 않고 있다. 즉, 기존의 방식에서는 사용자가 입력한 URL 이나 키워드를 웹사이트 접속을 위해서만 사용하였으며 사이트 접속의 결과 표시되는 URL 도 단지 해당 사이트의 주소를 나타내주는 용도로만 사용되었을 뿐 이를 재가공하지는 않았다. 본 발명은 사용자에 의해 입력되는 URL 이나 키워드 및 웹 브라우저(S230)가 웹사이트에 접속될 때 주소 창에 출력되는 URL로 부터 키워드를 추출하고 이를 가공 및 활용하여 사용자에게 향후 예상되는 연관된 사이트로의 네비게이션이나 검색을 보다 용이하게 하기 위한 방법을 제공한다. In the existing web browser (S230) or the toolbar, when the user inputs a string such as a keyword or a URL in the address bar, only the connection or search for the corresponding site is supported. However, the URL input by the user or the web browser S230 is not used for a new key search or connection to a website by automatically processing the URL string displayed in the address window when the website is accessed. That is, in the conventional method, the URL or keyword inputted by the user was used only for accessing the website, and the URL displayed as a result of accessing the site was only used to indicate the address of the site, and was not reprocessed. The present invention extracts a keyword from the URL or keyword input by the user and the URL output in the address window when the web browser (S230) is connected to the website, and processes and utilizes the keyword to the related site expected in the future. It provides a way to make navigation and search easier.
본 발명에서는 웹사이트에 접속하기 위해 사용자가 웹 브라우저 주소 창(S210)에 입력하는 URL이나 키워드 등의 문자열 및 웹 브라우저(S230)가 해당 웹사이트에 접속되면서 주소 창에 표시되는 해당 사이트의 URL 이 사용자가 찾고자 하는 정보와 관련된 중요한 정보를 가지고 있다는 점에 착안하였다. 일반적으로 도메인 네임이나 URL은 그 사이트에서 제공하는 내용과 가장 연관성이 높은 단어들로 구성하게 된다. 따라서 주소 창에 입력 또는 표시되는 URL을 가공하면 역으로 키워드가 추출될 수 있으며 추출된 키워드를 여러 형태로 재가공하면 사용자가 앞으로 사용하게 될 검색 단어나 네비게이션 할 것으로 예상되는 연관 사이트들을 미리 준비할 수 있다. 본 발명에서는 URL로 부터 키워드를 추출하는 방법과 추출된 키워드를 재가공 하는 방법, 사용자가 향 후 네비게이션이나 추가적인 검색에 활용할 수 있게 하는 방법을 제시한다.In the present invention, a string such as a URL or a keyword that a user inputs in a web browser address window S210 to access a website, and a URL of the corresponding site displayed in the address window while the web browser S230 is connected to the website. We focused on the fact that the user has important information related to the information he is looking for. Typically, a domain name or URL will consist of words that are most relevant to what the site offers. Therefore, by processing URLs that are entered or displayed in the address bar, keywords can be extracted in reverse, and by reprocessing the extracted keywords in various forms, users can prepare in advance the search words that users will use or the related sites that they expect to navigate. have. The present invention proposes a method of extracting a keyword from a URL, a method of reprocessing the extracted keyword, and a method of enabling a user to use it for future navigation or additional search.
본 발명은 URL 을 구성하는 문자열은 해당 웹사이트의 성격을 가장 잘 반영하는 이름 중에서, 또는 가장 연관성이 많은 단어들에서 선택하게 마련이라는 점에서 착안하였다. URL 의 구조를 살펴보면 4개의 도메인이 연결된 형태로 되어 있으며 다음과 같다.The present invention has been conceived in that the string constituting the URL is selected from among the names that most reflect the characteristics of the website or from the most relevant words. Looking at the structure of URL, four domains are connected and are as follows.
- URL의 최상위 레벨(Top level) 도메인은 도메인의 성격(군사, 회사, 교육, 국가 등)의 정보를 가지고 있다The top level domain of a URL contains information about the nature of the domain (military, company, education, country, etc.).
- 2차 레벨(2nd level) 도메인은 성격(단체,회사,망,학교 등)의 정보를 가지고 있다-Second level domains contain information of personality (group, company, network, school, etc.).
- 3차 레벨(3rd level) 도메인은 기관 명칭, 사이트의 키워드를 가지고 있다3rd level domain contains organization name and site keyword
- 4차 레벨(4th level) 도메인은 서버의 명칭에 대한 정보를 가지고 있다4th level domain contains information about the name of the server
회time
`국회'의 URL: www.assembly.go.kr URL of the National Assembly: www.assembly.go.kr
3차 레벨 도메인: assembly 3rd level domain: assembly
2차 레벨 도메인: go Second level domain: go
Top 레벨 도메인: krTop-Level Domains:
이 경우, 3차 레벨 도메인인 ‘assembly’ 가 키워드로 추출되며 2차 레벨 도메인 ‘go’ 는 정부기관 이라는 웹사이트의 범주를 나타내며 최상위레벨 도메인 ‘kr’ 은 대한민국 이라는 국가를 나타낸다. 추출된 키워드는 assembly 이며 이에 대한 번역 단어로 ‘국회’가 있으며 유사어로 ‘parliament’, ‘congress’ 가 있고 관련 단어로 ‘국회속기록’, ‘국회일정’, ‘국회의원’, ‘총선’, ‘입법부’ 등이 있고 검색엔진을 통한 관련 사이트의 검색 결과로는 ‘국회도서관’, ‘국회의 연혁’, ‘역대 국회의장의 소개’, ‘국회예산과정 모니터’ 등의 웹사이트 명칭과 URL이 검색될 수 있다. In this case, the third-level domain 'assembly' is extracted as a keyword, and the second-level domain 'go' represents the category of the website of the government agency, and the top-level domain 'kr' represents the country of Korea. The extracted keyword is assembly and there are 'parliament' as translation words. There are similar words 'parliament' and 'congress' and related words are 'parliamentary record', 'parliamentary schedule', 'parliamentary member', 'general election', 'legislature'. Search results of related sites through search engines, such as 'National Library of Congress', 'History of National Assembly', 'Introduction of the National Assembly's Chairman', and 'National Assembly Budget Monitor' Can be.
또한 www.yahoo.com 의 경우에는 최상위 레벨 도메인 ‘com’ 은 도메인의 성격을 나타내며, 국가 도메인이 아니므로 2차 레벨 도메인이 없으며 3차 레벨 도메인은 ‘yahoo’ 이고 따라서 키워드는 3차 레벨 도메인 ‘yahoo’ 로 추출할 수 있다.Also, for www.yahoo.com, the top-level domain 'com' represents the nature of the domain, and because it's not a country domain, there's no second-level domain, and the third-level domain is' yahoo ', so the keyword is a third-level domain' yahoo 'can be extracted.
또한 키워드 서비스를 이용하는 경우 사용자는 키워드 자체를 처음부터 주소 창에 입력하는 경우도 있다. 이 경우 키워드는 사용자가 입력한 키워드 그 자체이며 키워드 표시 창(S220)에는 사용자의 키워드가 그대로 표시된다. In addition, when using the keyword service, a user may input the keyword itself into the address window from the beginning. In this case, the keyword is a keyword input by the user and the keyword of the user is displayed in the keyword display window S220 as it is.
위에 제시한 방법으로 URL로 부터 키워드가 적절하게 추출되었다고 보기 어려운 경우가 있다. 즉, URL이나 도메인 네임을 구성할 때 되도록 짧게 하기 위한 목적이나 또는 좋은 단어들이 미리 선점되어 있어서 차선의 단어나 우회적인 단어, 극단적으로는 기계가 판단하기에는 전혀 무관한 문자열로 URL이 만들어진 경우들도 있을 수 있다. 이를 위하여 2가지 보완 방법이 사용될 수 있다. In some cases, it is difficult to think that the keywords are properly extracted from the URL. In other words, when constructing URLs or domain names, the purpose is to keep them as short as possible, or to preempt good words so that the URLs are made of suboptimal words, circumventive words, or extremely unrelated strings. There may be. Two complementary methods can be used for this.
첫 째, 약어나 단축된 단어에 대해서는 이를 사전(Dictionary) DB와 별개로 약어 및 단축 문자열로 부터 예상할 수 있는 키워드를 저장하여 해당 문자열이 왔을 때 사전 DB에서 검색하기 어려운 사항들을 보완하는 방법이 사용될 수 있다.First, for abbreviations or abbreviated words, it is possible to store keywords that can be expected from abbreviations and abbreviated strings separately from the dictionary DB to compensate for the difficulties in searching the dictionary DB when the strings come. Can be used.
둘 째, 웹 브라우저 주소 창(S210)에 입력 또는 표시되는 URL을 그대로 특정 검색엔진에 전달하여 검색엔진으로 부터 출력되는 해당 URL에 대한 명칭과 주석으로 부터 키워드를 추출하는 방법이다. 이 방법에 의하면 웹 사이트의 성격과 전혀 무관한 문자열로 URL이나 도메인 네임을 사용하는 사이트들에 대해서도 키워드 추출의 정확성이 높아질 수 있다. Second, a method of extracting a keyword from a name and a comment on a corresponding URL output from a search engine by transferring a URL input or displayed in a web browser address window S210 to a specific search engine as it is. According to this method, keyword extraction accuracy can be improved even for sites that use URLs or domain names with strings irrelevant to the nature of the web site.
이상의 2가지 보완책을 구현하기 위해서는 시스템에 약어나 축약어로 부터 이를 키워드로 확장할 수 있도록 이러한 문자열에 대한 정의가 데이타베이스로 준비되어야 하며, URL 만으로 즉시 키워드가 추출되지 않는 경우 검색엔진에게 URL 전체를 보내서 해당 사이트의 정보를 검색하는 프로그램 모듈이 필요하다. In order to implement the above two complementary measures, the definitions of these strings should be prepared in the database so that the system can expand them from the abbreviations or abbreviations to the keywords. You need a program module that sends and retrieves information from that site.
본 발명의 목적은 기존의 웹 브라우저(S230)나 툴 바에서는 제공되지 않았던 기능, 즉, 사용자가 입력한 문자열 또는 현재 방문중인 웹페이지로 부터 키워드를 추출하며, 이와 동시에 추출된 키워드를 활용하여 사용자가 향후 검색할 것으로 예상되는 단어 또는 URL을 제공함으로써 사용자에게 향후 예상되는 연관된 사이트로의 네비게이션이나 검색을 보다 용이하게 하기 위한 것이다. 본 발명이 제시하는 키워드를 추출하는 방법에는 사용자가 입력한 URL로 부터 추출하는 방법, 사용자가 입력한 키워드 또는 입력문자열로 부터 키워드를 추출하는 방법, 사용자 입력한 URL 또는 키워드의 결과로서 사용자의 웹 브라우저 또는 인터넷 툴바에 표시되는 URL 로 부터, 즉, 표시된 URL로 부터 키워드를 추출하는 방법, 사용자가 현재 방문중인 웹 페이지의 메타 태그(Meta Tags)의 한 필드인 타이틀(Title)로 부터 키워드를 추출하는 방법이 있다. An object of the present invention is to extract a keyword from a function that was not provided in the existing web browser (S230) or the toolbar, that is, a string input by the user or a web page currently being visited, and at the same time using the extracted keyword By providing a word or URL that is expected to be searched in the future, to make the user easier to navigate or search to the associated site that is expected in the future. According to the present invention, there is provided a method of extracting a keyword from a URL input by a user, a method of extracting a keyword from a keyword or an input string input by the user, and a web of the user as a result of the URL or keyword input by the user. How to extract keywords from the URL displayed in the browser or Internet toolbar, i.e. from the displayed URL, Extract keywords from the Title, a field in the Meta Tags of the web page the user is currently visiting There is a way.
상기한 URL로 부터 키워드를 추출하는 것은 본 발명의 청구범위에서는 제외된다. 다만, 본 발명은 사용자가 입력한 키워드는 그 자체로서 이미 키워드이며, 사용자가 현재 방문중인 웹 페이지의 메타 태그의 한 필드인 타이틀(Title)로 부터 키워드를 추출하며, 사용자의 입력문자열 직접 입력, 또는 현재 방문중인 웹 페이지의 타이틀로 부터 추출된 타이틀 문자열은 그대로 키워드로 얻어지게 된다. 사용자의 입력문자열은 그 자체로서 키워드로 활용하며 키워드 추출의 과정이 필요하지 않다. 검색 또는 항해를 위해 사용자가 입력한 입력 문자열에 대하여, 특히 한국어의 경우에는 형태소 분석을 통하여 조사나 접미사등을 제외하고 키워드를 더욱 정제할 수 있으나, 검색 또는 항해할 자료의 수가 많아진 현재의 상황에서는 접미사 또는 조사 또한 입력된 문자열 전체로서 새로운 의미를 갖는 경우가 많이 있다. 따라서 본 발명에서는 입력문자열에 대하여 별도의 형태소 분석이나 별도의 처리과정을 거치지 않고 입력된 그대로 또는 '있는 그대로'(as is) 입력된 문자열을 키워드로 사용한다. 즉, 사용자가 "특허청" 또는 "청와대" 또는 "국회"라고 웹 브라우저의 주소창 또는 인터넷 툴 바 등에 입력하는 입력 문자열은 그 자체로서 키워드이며 사용자에게 향후 그 사용자가 추가로 검색할 가능성이 높은 연관 단어들이나 연관된 웹사이트를 제공해 주는데 사용된다. Extracting keywords from the above URLs is excluded from the claims of the present invention. However, in the present invention, the keyword input by the user is already a keyword by itself, and extracts the keyword from a title, which is a field of the meta tag of the web page the user is currently visiting, and directly inputs the user's input string, Alternatively, the title string extracted from the title of the web page currently being visited is obtained as a keyword. The user's input string is used as a keyword in itself and does not require a keyword extraction process. For the input string entered by the user for search or navigation, especially in Korean, the keywords can be further refined through morphological analysis, except for surveys and suffixes. Suffixes or probes also often have a new meaning as a whole string. Therefore, the present invention uses the input string as it is or 'as is' as an keyword without undergoing a separate morphological analysis or a separate processing process for the input string. In other words, the input string that the user enters "Patent Office" or "Blue House" or "National Assembly" as a web browser address bar or Internet toolbar is a keyword in itself and is a related word that the user is likely to further search in the future. It is used to provide them or related websites.
HTML 문서에서 메타 태그(Meta Tags)의 각 필드, 즉, Title, Description, Keyword 등의 필드는 문서의 본문(Body)과 별도로 해당 문서의 카테고리와 검색 그룹의 분류하는 목적을 검색 엔진에 의해 사용되고 있다. 검색엔진의 분류를 염두에 둔 웹 페이지 작성자는 Description과 Keyword는 눈에 보이지 않는 내용이지만 색인어의 성격을 가지므로 적절한 단어들을 입력할 것이다. 그런데 타이틀(Title)은 웹 브라우저에의 상단 테두리, 마이크로소프트 인터넷 익스플로러의 경우에는 웹 브라우저의 파란색 상단 테투리에 해당 문서의 타이틀(Title)이 일정 길이의 문자열로 표시되며 웹 브라우저의 내용에서 사용자의 눈에 가장 먼저 띄는 항목이므로 해당 웹 페이지의 내용을 가장 잘 설명해 줄 수 있는 문자열로 기입할 것이다. 다만, "~홈페이지에 오신 것을 환영합니다" 또는 "~에 방문하신 것을 진심으로 환영합니다" 등은 추출과 가공의 차원에서는 키워드로서의 의미가 거의 없는 부분이므로 타이틀 문자열에서 이러한 상투적인 단어는 제외하는 것이 바람직하다. 또한 문자 이외에 타이틀 앞 뒤 또는 문자열의 중간에 오는 부호와 특수문자, 예를 들면 마름모, 하트(Heart) 심볼, 스페이드(spade) 심볼, 클로버(Clover) 심볼, 느낌표(!), 등호(=) 등과 같은 특수문자나 부호 또한 키워드로서의 의미가 없다. 이러한 상투적인 단어와 특수 문자 또는 부호들을 제외하면 나머지 문자열 또는 단어들이 모두 키워드의 후보가 된다. In the HTML document, each field of Meta Tags, that is, title, description, keyword, etc., is used by the search engine to classify the document category and search group separately from the body of the document. . Web page authors who consider the classification of search engines will enter appropriate words because Description and Keyword are invisible but have the characteristics of index terms. However, the title is the upper border of the web browser, and in the case of Microsoft Internet Explorer, the title of the document is displayed in a string of a certain length in the blue upper border of the web browser. Because it is the first item to appear in, it will be entered as a string that best describes the content of the web page. However, "Welcome to the homepage" or "Welcome to the homepage", etc., are parts that have little meaning as keywords in terms of extraction and processing. desirable. In addition to characters, symbols and special characters before or after the title or in the middle of a string, such as rhombus, heart symbol, spade symbol, clover symbol, exclamation point (!), Equal sign (=), etc. The same special character or symbol also has no meaning as a keyword. With the exception of these conventional words and special characters or symbols, all remaining strings or words are candidates for keywords.
특정 웹 페이지에 대한 키워드가 반드시 하나만 있어야 하는 것은 아니다. 본 발명의 예로 사용되는 국회와 청와대의 홈페이지는 상기한 상투적 단어를 제거하면 "대한민국국회", "청와대" 라는 키워드가 각각 추출된다. 특허청(http://www.kipo.go.kr)의 홈페이지의 경우에는 "21세기 초일류 지식재산 강국실현! 특허청"이라는 타이틀로 부터 부호를 제거하면 21세기, 초일류, 지식재산, 강국실현, 특허청 이라는 문자열이 키워드 후보가 추출되며 타이틀 문자열 전체, 즉 "21세기 초일류 지식재산 강국실현 특허청" 이라는 문장은 복합 단어들로 구성된 문자열이지만 그 자체로써, 즉, 타이틀의 문자열 전체가 키워드로 사용될 수 있다.You don't have to have only one keyword for a particular web page. When the homepage of the National Assembly and the Blue House used as an example of the present invention is removed, the keywords "Korean National Assembly" and "Blue House" are extracted, respectively. In the case of the homepage of the JPO (http://www.kipo.go.kr), if the code is removed from the title of "The 21st century's first-class intellectual property powerhouse realization! The keyword candidate is extracted from the keyword candidate, and the entire title string, that is, the sentence "the 21st century first-class intellectual property realization patent office" is a string composed of compound words, but as such, the entire string of the title can be used as a keyword.
사용자의 직접 입력 또는 상기한 방식에 의해 얻어진 키워드로 부터 해당 사용자가 향후 검색 또는 인터넷 항해에 사용할 가능성이 높은 단어들은 "사전 DB"와 "관련단어 DB"로 부터 검색되어 사용자의 웹 브라우저나 툴바에 제시된다. 사전 DB로 부터는 입력된 단어 또는 문자열에 대한 동의어, 반의어, 번역단어, 번역문자열이 검색되어 사용자의 웹 브라우저나 툴 바에 표시된다. 관련 단어 DB는 사용자의 직접 입력에 의한 키워드 또는 타이틀로 부터 구해진 키워드에 연관된 단어 리스트들이 검색되어 표시된다. 관련 단어 DB는 본 발명의 목적과 같이 특정 키워드에 대하여 하나 이상의 연관된 키워드들이 쌍으로 저장된 데이타베이스이다. 사전 DB 또한 키워드에 대해 이에 대응하는 동의어, 반의어, 번역단어들이 저장된 데이타베이스이다Words that are most likely to be used by the user for future searches or Internet navigation from the user's direct input or keywords obtained by the above method are retrieved from "dictionary DB" and "related word DB" and displayed on the user's web browser or toolbar. Presented. From the dictionary DB, synonyms, antonyms, translation words, and translation strings for the entered words or strings are searched and displayed in the user's web browser or toolbar. In the related word DB, a list of words related to a keyword obtained from a keyword or a title by a user's direct input is searched and displayed. The related word DB is a database in which one or more related keywords are stored in pairs for a particular keyword, as the purpose of the present invention. Dictionary DB is also a database of synonyms, antonyms, and translation words for keywords.
이러한 키워드 추출과 가공 및 연관 단어와 연관 사이트 목록으로의 확장을 위해서 본 발명이 제시하는 시스템은 다음과 같은 모듈로 구성된다. The system proposed by the present invention for the keyword extraction and processing and expansion to the related word and related site list is composed of the following modules.
(i)웹 브라우저 주소 창 또는 툴 바에 입력 또는 표시되는 문자열을 받아들이기 위한 프로그램 모듈로서, 웹 브라우저 주소 창(S210)에 사용자의 문자열 입력 또는 해당 웹 사이트의 타이틀로 부터 키워드를 표시 하는 모듈과(S10),(i) a program module for receiving a character string input or displayed in a web browser address bar or a toolbar, the module displaying a keyword from a user's character string input or a title of a corresponding web site in a web browser address window S210; S10),
(ii)입력된 문자열을 구분하고 키워드를 추출하기 프로그램 모듈로서, 사용자의 입력 문자열 또는 방문중인 웹 페이지의 타이틀(Title) 또는 방문중인 웹 페이지의 URL의 3차 레벨 도메인 으로 부터 키워드 추출하는 모듈과,(S20)(ii) a program module for separating input strings and extracting keywords, comprising: a module for extracting keywords from a user input string or a title of a visiting web page or a third level domain of a URL of a visiting web page; , (S20)
(iii)추출된 키워드를 가공하는 프로그램 모듈로서, 키워드에 대한 유사어, 동의어, 번역 단어, 관련 단어를 찾는 모듈과,(S30)(iii) a program module for processing the extracted keywords, wherein the module finds similar words, synonyms, translation words, and related words for the keyword (S30).
(iv) 키워드를 가공하기 위한 데이터베이스와 키워드로 관련 단어를 검색하는 프로그램 모듈로서 사전, 유사어, 동의어, 관련단어를 자체 또는 외부의 특정 서버의 사전 DB 또는 관련단어 DB에서 검색하여 제공하는 모듈과,(S40)(iv) a database for processing keywords and a module for searching related words with keywords, the module for searching and providing dictionaries, synonyms, synonyms, and related words in a dictionary database or a related word database of a specific server or an external server; (S40)
(v)사용자가 키워드를 가공하여 표시하는 방식을 정의하는 사용자 인터페이스 프로그램 모듈로서, 키워드만을 표시할 것인지 키워드를 어떤 형태로 가공하여 표시해 줄 것인지 선택을 제공하는 모듈과(S50)(v) a user interface program module for defining a method of processing and displaying a keyword, wherein the module provides a selection of whether to display only the keyword or how to process the keyword and display the keyword (S50).
(vi)문자열에 대해 검색 또는 연결을 실행하는 프로그램 모듈로서, 사용자가 원하는 방식으로 웹 브라우저(S230)를 실행하는 모듈(vi) a program module for executing a search or connection for a string, and a module for executing a web browser S230 in a manner desired by a user
등 총 6개의 모듈로 구성된다.(S60)It consists of six modules in total. (S60)
여기에서 각 실행 모듈은 프로그램의 구현 방식에 따라 그 위치가 달라질 수 있는데 사용자의 단말기에 위에서 열거한 모듈 전체와 데이터베이스까지 위치할 수 있으며 또는 전체를 외부의 특정 서버에 배치할 수도 있고 일부를 사용자의 단말기에 배치하고 일부를 외부의 서버들에 분산시켜서 배치할 수도 있다.In this case, the location of each execution module may vary depending on how the program is implemented. The entire module and the database listed above can be located on the user's terminal, or the whole can be placed on a specific external server or a part of the user can be located. It can also be deployed in the terminal and distributed to some of the external servers.
위에 열거된 각 모듈의 동작은 기술된 순서와 동일하지만 `(v)사용자가 키워드를 가공하여 표시하는 방식을 정의하는 사용자 인터페이스 프로그램 모듈'(S50)은 사용자가 본 발명의 시스템을 이용하는 전 단계에서 실행하게 할 수 있고 사용자의 방식 정의가 없는 경우에는 시스템에서 미리 정의한 방식에 의해 실행하게 된다. 사용자의 방식 정의는 사용자의 입력에 의한 키워드의 경우, 해당 키워드에 대한 동의어, 반의어, 관련단어, 번역단어들에 대해 사용자에게 표시해줄 항목을 선택하게 할 수 있으며 번역단어가 필요하지 않은 사용자는 번역단어를 표시하지 않게 선택할 수 있으며 번역단어를 필요로 하는 사용자의 경우에도 입력한 단어에 대한 번역단어의 언어를 선택하게 할 수 있다. The operation of each module listed above is the same as the described order, but the `(v) user interface program module defining the manner in which the keyword is processed and displayed '(S50) is a step in which the user uses the system of the present invention. If there is no user's method definition, it is executed by the system predefined method. The definition of the user's method allows the user to select items to be displayed to the user about the synonyms, antonyms, related words, and translation words for the keyword in response to the user's input. A user may select not to display a word, and a user who needs a translation word may select a language of a translation word for an input word.
또한 `(iv) 키워드를 가공하기 위한 데이터베이스와 키워드로 관련 단어를 검색하는 프로그램 모듈'(S40)은 데이터베이스와 이를 검색하는 프로그램 모듈 2가지를 함께 기술한 것이며 데이터베이스는 사용자 단말기에 위치한 자체 데이터베이스 또는 외부의 특정 서버의 데이터베이스 모두 가능하다. 키워드에 대한 관련단어를 검색하는 프로그램 모듈은 URL 로부터 키워드가 추출되는 즉시 검색 엔진이나 특정 데이터베이스를 검색하여 추출된 키워드와 관련된 단어나 관련된 사이트를 검색하여 사용자의 툴 바 또는 주소 창에 표시하는 것을 준비한다. In addition, the `(iv) database for processing keywords and program modules for searching related words by keyword '(S40) describes the database and two program modules for searching them together. All of the databases on a particular server are possible. A program module that searches for related words for a keyword is ready to search a search engine or a specific database as soon as the keyword is extracted from the URL, to search for words or related sites related to the extracted keyword and display them in the user's toolbar or address bar. do.
추출된 키워드와, 이 키워드의 연관된 단어들은 키워드 표시 창(S220)이나 툴 바 또는 팝업 윈도우 등에 표시할 수 있는데 이상적으로는 주소 창 옆에 키워드 표시 창(S220)을 만들어서 추출된 키워드 및 관련 단어들을 나열해 주는 것이 바람직하며 검색에는 시간이 소요될 수 있으므로 관련되는 단어나 웹사이트들이 검색되는 대로 표시부에 추가해 주는 것이 바람직한 구현이다. The extracted keyword and related words of the keyword can be displayed in a keyword display window (S220), a toolbar or a pop-up window. Ideally, a keyword display window (S220) is created next to an address window to extract extracted keywords and related words. It is preferable to list them and search can take time, so it is desirable to add relevant words or websites to the display as they are searched.
사용자의 입력이 아닌, 웹 사이트 방문에 의해 웹 브라우저의 주소 창에 URL 이 표시되는 경우도 사용자의 입력과 동일한 방식으로 위의 `(i)주소 창에 입력 또는 표시되는 문자열을 받아들이기 위한 프로그램 모듈'(S10) 항목에서 기술된 프로그램에 의해 문자열로 받아들여지며 여기에서 키워드의 추출과 가공, 관련 단어나 관련 웹 사이트의 검색 및 가공된 결과의 표시가 사용자의 네비게이션에 따라 계속 반복된다. Program module that accepts the strings entered or displayed in the `(i) address bar above in the same way as the user input, even if the URL is displayed in the address bar of the web browser by a visit to the website, not by the user. It is accepted as a character string by the program described in the item '(S10)', where the extraction and processing of keywords, the searching of related words or related web sites, and the display of processed results are repeated according to the user's navigation.
상기한 `(vi)문자열에 대해 검색 또는 연결을 실행하는 프로그램 모듈'(S60)은 사용자가 네비게이션을 하는 도중에 검색 엔진에 방문하는 절차와 시간을 줄여주며 사용자는 본 발명이 제시한 시스템과 방식에 의해 키워드 표시 창(S220)이나 툴 바, 팝업 윈도우에 표시되는 가공된 결과를 선택하여 검색 또는 해당 키워드로 웹 사이트 바로 열기를 즉시 할 수 있다. The program module for executing a search or linking to the '(vi) string' above (S60) reduces the procedure and time for visiting the search engine while the user is navigating, and the user is able to adapt the system and method proposed by the present invention. As a result, the processed result displayed in the keyword display window S220, the toolbar, or the pop-up window can be selected to immediately search or immediately open the web site using the corresponding keyword.
본 발명은 사용자가 웹사이트에 연결하기 위해 웹 브라우저 주소 창(S210)에 매번 키워드나 URL 을 입력하고 또한 접속된 사이트가 원하는 사이트가 아니거나 다른 관련 사이트로 이동해야 할 경우 처음부터 URL 을 다시 입력하거나 검색엔진으로 부터 관련 사이트를 다시 검색해야만 하는 불편을 감소시키며 사용자가 한번 방문한 사이트로 부터 키워드 및 연관된 키워드를 가공하여 사용자에게 제시하여 줌으로써 사용자가 현재 방문중인 사이트에서 다른 사이트로의 네비게이션이나 검색할 가능성이 높은 웹 사이트를 미리 검색하고 관련 단어들을 사용자의 단말기에 미리 준비할 수 있으며 URL 입력이나 반복적인 검색과 네비게이션에 드는 시간과 노력을 줄여주는 효과가 있다.In the present invention, the user inputs a keyword or URL every time in the web browser address window (S210) in order to connect to the website, and also re-enters the URL from the beginning when the connected site is not a desired site or needs to be moved to another related site. It also reduces the inconvenience of having to search related sites from search engines and processes and presents keywords and related keywords from the sites that users have visited once. It can pre-search for highly probable websites and prepare related words in advance on the user's device. This saves time and effort for URL input, repetitive search and navigation.
도 1은 본 발명이 제시하는 시스템의 각 모듈과 역할을 보여주며1 shows each module and role of the system of the present invention
도 2는 실행 화면의 예를 보여주며2 shows an example of an execution screen
도 3은 키워드 추출과 처리 흐름을 보여주는 순서도이며3 is a flowchart showing a keyword extraction and processing flow.
도 4는 본 발명이 제시하는 시스템의 구성도이다.4 is a block diagram of a system of the present invention.
S10, S20, S30, S40, S50, S60: 시스템을 구성하는 각 모듈.S10, S20, S30, S40, S50, S60: Each module constituting the system.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050044714A KR20050078655A (en) | 2005-05-26 | 2005-05-26 | Dynamic keyword extraction and processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050044714A KR20050078655A (en) | 2005-05-26 | 2005-05-26 | Dynamic keyword extraction and processing system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20040006487A Division KR100508416B1 (en) | 2003-12-01 | 2004-01-31 | Dynamic Keyword Extraction and Processing Method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050078655A true KR20050078655A (en) | 2005-08-05 |
Family
ID=37265748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050044714A KR20050078655A (en) | 2005-05-26 | 2005-05-26 | Dynamic keyword extraction and processing system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050078655A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100757951B1 (en) * | 2007-01-02 | 2007-09-11 | 김수현 | Search method using morpheme analyzing in web page |
KR100809115B1 (en) * | 2006-04-14 | 2008-03-04 | 중앙이비즈센타 주식회사 | Automatically searching system of web site using a special character and searching method thereof |
KR100952418B1 (en) * | 2008-05-13 | 2010-04-14 | 한국과학기술정보연구원 | Query Language Expansion System Using Vocabulary Networks And Method Thereof, And Media That Can Record Computer Program Sources For Method Therof |
WO2014119959A1 (en) * | 2013-01-31 | 2014-08-07 | Nam Hui Ok | System for page searching and method for providing same |
WO2015080364A1 (en) * | 2013-11-29 | 2015-06-04 | 현대엠엔소프트 주식회사 | Method for searching by navigation unit and apparatus therefor |
CN110609952A (en) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | Data acquisition method and system and computer equipment |
-
2005
- 2005-05-26 KR KR1020050044714A patent/KR20050078655A/en not_active Application Discontinuation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100809115B1 (en) * | 2006-04-14 | 2008-03-04 | 중앙이비즈센타 주식회사 | Automatically searching system of web site using a special character and searching method thereof |
KR100757951B1 (en) * | 2007-01-02 | 2007-09-11 | 김수현 | Search method using morpheme analyzing in web page |
KR100952418B1 (en) * | 2008-05-13 | 2010-04-14 | 한국과학기술정보연구원 | Query Language Expansion System Using Vocabulary Networks And Method Thereof, And Media That Can Record Computer Program Sources For Method Therof |
WO2014119959A1 (en) * | 2013-01-31 | 2014-08-07 | Nam Hui Ok | System for page searching and method for providing same |
WO2015080364A1 (en) * | 2013-11-29 | 2015-06-04 | 현대엠엔소프트 주식회사 | Method for searching by navigation unit and apparatus therefor |
CN110609952A (en) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | Data acquisition method and system and computer equipment |
CN110609952B (en) * | 2019-08-15 | 2024-04-26 | 中国平安财产保险股份有限公司 | Data acquisition method, system and computer equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9164987B2 (en) | Translating a search query into multiple languages | |
US8166013B2 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
US8209321B2 (en) | Emphasizing search results according to conceptual meaning | |
Jones et al. | Geographic intention and modification in web search | |
KR100815215B1 (en) | Apparatus and method for integration search of web site | |
Alex et al. | Adapting the Edinburgh geoparser for historical georeferencing | |
US20080281816A1 (en) | Dynamic Keyword Processing System and Method For User Oriented Internet Navigation | |
US20060277189A1 (en) | Translation of search result display elements | |
CN101019119A (en) | Named URL entry | |
KR20050078655A (en) | Dynamic keyword extraction and processing system | |
CN102819384A (en) | Method and device for prompting display at input field | |
Mahmood | Library web OPACs in Pakistan: an overview | |
KR100913733B1 (en) | Method for Providing Search Result Using Template | |
KR20020022977A (en) | Internet resource retrieval and browsing method based on expanded web site map and expanded natural domain names assigned to all web resources | |
KR100508416B1 (en) | Dynamic Keyword Extraction and Processing Method | |
Bhardwaj et al. | Structure and Functions of Metasearch Engines: An Evaluative Study. | |
CN1922606B (en) | For dynamic keyword processing system and the method for user oriented internet navigation | |
KR101037091B1 (en) | Ontology Based Semantic Search System and Method for Authority Heading of Various Languages via Automatic Language Translation | |
US7970752B2 (en) | Data processing system and method | |
Mishra et al. | Improved search technique using wildcards or truncation | |
Urbansky et al. | Entity extraction from the web with webknox | |
Jakob et al. | Dcbot: Finding spatial information on the web | |
EP2185999A2 (en) | Emphasizing search results according to conceptual meaning | |
Haque et al. | Infrastructure for Bangla Information retrieval in the context of ICT for development | |
Klas et al. | A qualitative evaluation of The European Library |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
WITN | Withdrawal due to no request for examination |