WO2018080278A1 - 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법 - Google Patents

데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법 Download PDF

Info

Publication number
WO2018080278A1
WO2018080278A1 PCT/KR2017/012140 KR2017012140W WO2018080278A1 WO 2018080278 A1 WO2018080278 A1 WO 2018080278A1 KR 2017012140 W KR2017012140 W KR 2017012140W WO 2018080278 A1 WO2018080278 A1 WO 2018080278A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
desired data
area
region
data area
Prior art date
Application number
PCT/KR2017/012140
Other languages
English (en)
French (fr)
Inventor
정병준
임준원
임지현
한현민
Original Assignee
주식회사 뉴스젤리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뉴스젤리 filed Critical 주식회사 뉴스젤리
Publication of WO2018080278A1 publication Critical patent/WO2018080278A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Definitions

  • the present invention relates to a method for extracting a desired data region, and more particularly, to a method for extracting a desired data region by converting a data group into a parsable form.
  • the format of the data produced e.g., the format in which the data is stored within a particular file or document, the location of the data in the document, etc.
  • the structure e.g., For example, the arrangement of data in a specific table, the format of each data unit, the type of data values, etc.
  • problems with extracting the desired data area that the user wants to utilize are a number of problems with extracting the desired data area that the user wants to utilize.
  • the present invention has been made to solve the above-mentioned problems of the prior art, and an object of the present invention is a form capable of parsing such a data group for a data group whose format and / or structure is not uniform. To provide a method of converting the data into the desired data area and extracting the desired data area.
  • an aspect of the present invention is a data acquisition step of reading data from a data group; Converting the data into a parsable form; Estimating desired data region candidates for estimating desired data region candidates to be utilized by a user from the converted data; A desired data region evaluation step of evaluating utilization for the estimated desired data region candidates; A priority derivation step of giving priority to the desired data area candidates according to the evaluation result; And a final desired data area extraction step of extracting the highest priority data area among the priority data area candidates given priority as the final desired data area.
  • the method may further include obtaining feedback from the user between the priority derivation step and the final desired data area extraction step, and reflecting the feedback at least partially in the final desired data area extraction step.
  • the desired data area extraction method may be performed by extracting a final desired data area.
  • the estimating the desired data area candidate may be a method of extracting a desired data area, wherein estimating the consecutively arranged data areas is a desired data area candidate.
  • the estimating a desired data region candidate may include extracting a type of cell-based data in cell units of data; And estimating only the data cells corresponding to the extracted type as the desired data region candidates.
  • the estimating the desired data area candidate is a step of estimating a region having a specific ratio of the same data type or more in a data field unit as a desired data region candidate. Can be.
  • another aspect of the present invention is a data acquisition step of reading data from a data group;
  • the method may further include obtaining feedback from the user between the rule applying step and the final desired data area extraction step, wherein the feedback may be reflected at least partially in the final desired data area extraction step.
  • the desired data area extraction method may be performed by extracting a desired data area.
  • a desired data area that a user wants to utilize from a data group whose format and / or structure is not uniform is automatically generated. It can be extracted quickly.
  • the user can obtain a desired portion of data regardless of the format and / or structure of the data group, thereby increasing data utilization.
  • the user does not need to separately understand the format and / or structure of the raw data collection, thereby improving data accessibility.
  • FIG. 1 is a flowchart illustrating a method of extracting a desired data area according to an embodiment of the present invention.
  • 2 to 5 are flowcharts for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • FIG. 6 is a flowchart for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • a series of strings, which are only signs, are translated into machine language and become meaningful units of meaning.
  • parsing is a task of detaching a semantic unit in a sentence arranged as a series of characters, and may include an act of determining and classifying a hierarchy such as whether the semantic unit is a central element or an interlaced element.
  • a range of fixed locations within a set of data such as a computer command.
  • it may mean a designated area used for a specific kind of data in one record.
  • the computer obtains data from local or remote storage, such as memory or a server, the Internet, or the like.
  • data is generated on a computer using an application program running on the computer.
  • the computer may be configured to obtain input or feedback from the user or other entity and apply it. Feedback can be interpreted at the computer to understand the user's or other entity's preferences for output. Input or feedback may be obtained in response to one or more prompts that may be obtained directly from the user or other entity and / or generated by the computer. Based on this input or feedback, the computer can extract the final desired data area.
  • the computer may also be configured to store the priority given to each candidate data area in the desired data area extraction step for later use and / or to store the priority for application to other data.
  • program modules include routines, programs, components, data structures, and other types of structures that perform particular tasks or implement particular abstract data types.
  • program modules include routines, programs, components, data structures, and other types of structures that perform particular tasks or implement particular abstract data types.
  • other computer systems described herein include hand-held devices, multiprocessor systems, microprocessor-based or programmable consumer electronics, minicomputers, mainframe computers, and the like. It will be appreciated that the configuration can be practiced.
  • FIG. 1 is a flowchart illustrating a method of extracting a desired data area according to an embodiment of the present invention.
  • data may be read from a data group.
  • the format and / or structure of the data to be read is not limited.
  • data in which the format and / or structure are not uniform and variously combined may also be included.
  • the first data read in the data acquisition step S100 is referred to as raw data.
  • the raw data may be converted into a parsable form.
  • the parsable form refers to a form in which other information is removed except information that is actually treated as meaningful data. For example, when reading data stored in Microsoft Excel's commercial program, Excel file, as raw data, the attribute information (text color, font size, cell attributes, etc.) added to the raw data is removed and only the information treated as actual data is removed. Can be converted into a text file.
  • the conversion from the raw data to the parseable form is not limited thereto, and may be variously performed according to the type of the raw data, the language used, and the stored method.
  • the desired data region candidates to be utilized by the user may be estimated from the data which has been converted into a parseable form. That is, data structure analysis for analyzing the arrangement of data and / or syntax strings for classifying a sentence string into tokens and translating the string into machine language to grasp data information may be performed.
  • An area estimated to be desired data may be selected through structural analysis and / or syntax analysis. The selected area may be one or more, and the selected area may be stored in a separate memory or only tag information added by adding tag information to the selected areas may be stored in a separate memory.
  • each utilization evaluation may be performed on the desired data area candidates selected in the previous step.
  • the number of error values included in each desired data area candidate may be measured, or it may be evaluated whether the data requires further refinement.
  • the utilization evaluation method is not limited to this.
  • the utilization evaluation result may be stored separately or as tag information in each data area candidate.
  • priority may be given to the desired data area candidates according to the utilization evaluation result. For example, the lower the number of error values and / or no further refinement is required, the higher priority may be given.
  • the assigned priority information may be stored separately or as tag information in each data area candidate.
  • Area information, utilization evaluation information, and priority information of the data selected as the desired data area candidates are generated for the data that has passed the priority derivation step (S500) according to the evaluation result from the desired data area candidate estimating step (S300). Or as tag information in the data area. Even if stored separately, each piece of information is linked to the corresponding data area.
  • the highest priority data area may be extracted as the final desired data area.
  • all of the plurality of data areas are extracted as the final desired data area.
  • a desired data area that a user wants to utilize from a data group whose format and / or structure is not uniform is automatically and quickly. Can be extracted. In this way, the user can obtain a desired portion of data regardless of the format and / or structure of the data group, thereby increasing data utilization.
  • the user does not need to separately understand the format and / or structure of the raw data collection, thereby improving data accessibility.
  • FIG. 2 is a flowchart for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • the desired data region extraction method obtains feedback from the user between the priority derivation step S510 and the final desired data area extraction step S710 according to the evaluation result.
  • Step S610 may be further included. And you can get feedback from the user as well as other entities.
  • Feedback is like / dislike, yes / no or true / false answers to the question, rating information such as star count, number in range, or letter grade, and can be provided by extrapolation of simple actions such as selection or reordering. Can be.
  • the final desired data area may be extracted at least partially in the final desired data area extraction step (S710).
  • feedback may be used to modify the priority given to the desired data area candidate and / or to adjust the information involved in the prioritization.
  • a step (not shown) of re-prioritizing the priority to the desired data area candidates may be additionally performed. It is to be understood that this embodiment is exemplary and should not be construed as limiting in any way.
  • FIG. 3 is a flowchart illustrating a method of extracting a desired data area according to another embodiment of the present invention.
  • a method of extracting a desired data region includes estimating a desired data region candidate and includes estimating a consecutively arranged data region as a desired data region candidate (S320).
  • the structural problems that raw data had primitively remain For example, it may be divided into a data present region and a data nonexistent region, or both regions may alternately appear.
  • a data present region and a data nonexistent region may be randomly mixed in row units, column units, cell units, and token units.
  • the data non-existence region can be skipped and only the data existence region can be estimated as the desired data region candidate.
  • only regions in which data continuously exists above a certain level predetermined by a user or other entity or input by pre-programming may be estimated and selected as desired data region candidates.
  • the selected area may be one or more, and the selected area may be stored in a separate memory or only tag information added by adding tag information to the selected areas may be stored in a separate memory. It is to be understood that this embodiment is exemplary and should not be construed as limiting in any way.
  • FIG. 4 is a flowchart for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • a method of extracting a desired data region may include estimating a desired data region candidate and extracting a type of unit data from a cell unit of data (S330); And estimating only data cells corresponding to the extracted types as desired data region candidates (S430).
  • the present invention is not limited thereto and refers to both a token unit and a segmented data unit.
  • a step of receiving a data unit by a user or other entity may be included.
  • the result of the data type analysis on the first cell is 'alphanumeric alphanumeric', it may be stored in a part of computer memory such as cache memory.
  • the moving direction from the first cell to the second cell may be selected as the next cell moving direction. have.
  • Data type analysis is performed for each cell while continuing to move in the selected cell movement direction, and it is possible to determine whether the data type of each cell matches 'alphanumeric alphanumeric', and if so, the desired data area candidate. If not included, the candidate data area candidate may be excluded. Alternatively, all cells existing in the selected cell movement direction may be selected as the desired data region candidate.
  • the cell returns to the first cell and the next cell search may be performed in a direction different from the direction in which the first cell moves from the first cell to the second cell. have.
  • the movement may be repeated until the same type as the 'alphanumeric alphanumeric' type is obtained, and if the 'alphanumeric alphanumeric' type does not appear, the above steps may be repeated with the next adjacent cell as the first cell. have.
  • the selected area may be one or more, and the selected area may be stored in a separate memory or only tag information added by adding tag information to the selected areas may be stored in a separate memory. It is to be understood that this embodiment is exemplary and should not be construed as limiting in any way.
  • FIG. 5 is a flowchart for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • a method of extracting a desired data region is a step of estimating a desired data region, in which a region having a specific ratio of the same data type or more in a data field unit is a desired data region candidate. Estimating (S340).
  • the entire first data field unit may be estimated and selected as the desired data region candidate.
  • the data field closest to the specific ratio may be estimated and selected as the desired data region candidate.
  • the selected area may be one or more, and the selected area may be stored in a separate memory or only tag information added by adding tag information to the selected areas may be stored in a separate memory. It is to be understood that this embodiment is exemplary and should not be construed as limiting in any way.
  • feedback is obtained between the priority derivation steps S520, S630 and S540 and the final desired data area extraction steps S620, S730 and S640 according to the evaluation result. It may include a step.
  • FIG. 6 is a flowchart for explaining a method of extracting a desired data area according to another embodiment of the present invention.
  • the present embodiment includes a step of obtaining desired data rule (S102) that not only reads data from a data group but also receives a rule of a desired data area to be utilized by a user.
  • S102 desired data rule
  • Rules of the desired data area may vary according to the format, structure, or shape of the desired data area.
  • the data segment may be a type of a data segment unit (cell, token, etc.), or as another example, may be a field of a desired data area. However, it is not limited thereto.
  • a rule applying step (S301) may be performed to determine whether a region in the converted data corresponds to the rule.
  • the mutual comparison of the data and the rule in the rule applying step S301 may be performed in various ways according to the entered rule. For example, when a type of data segmentation unit (cell, token, etc.) is input as a rule, the data segmentation unit (cell, token, etc.) becomes one area and can be compared 1: 1 with the rule. When a field of an area is input as a rule, the field unit becomes one area and may be matched 1: 1 with the rule.
  • the region when a region in the data meets the rule, the region may be extracted as the final desired data region.
  • step S501 of moving to a new area in the converted data to which the comparison area is moved may be performed.
  • step S502 may be performed to determine whether the new area meets the rule.
  • this area may be extracted as the final desired data area. If the new area does not meet the rule, the area is returned to step S501 to move to a new area within the converted data (S501).
  • the loop algorithm can be formed until the data region is extracted.
  • the accuracy of the desired data region to be extracted can be improved.
  • a step (S401) of obtaining feedback from the user may be further included between the rule application step (S301) and the final desired data area extraction step (S601).
  • the feedback may be reflected at least partially in the final desired data region extraction step (S601).
  • step of obtaining the feedback (S401) does not pass, the step of obtaining feedback again through the step (S501) of moving to a new area in the converted data and determining (S502) whether the new area meets the rule (S401). ), Or if the new region does not meet the rule, loops back to step S501, which moves back to the new region in the transformed data, and loops until the data region that meets the rule and passes the feedback stage is extracted.
  • An algorithm can be formed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예는 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계; 추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계; 상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및 우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.

Description

데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법
본 발명은 희망 데이터 영역을 추출하는 방법에 관한 것으로, 더욱 상세하게는 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법에 관한 것이다.
전 세계 국가에 인터넷이 보편화 되고 이를 통해 전달되는 데이터의 중요성이 날로 높아지고 있는 상황에서, 데이터 활용을 보다 효과적으로 수행하기 위한 다양한 기술들은 빠르게 발전하고 있다.
하지만, 데이터 생산자의 범위가 넓어짐에 따라 생산되는 데이터의 포멧 (format, 예를 들어 특정 파일 또는 문서 내에서 데이터가 저장되어 있는 형식, 문서 내 데이터의 위치 등) 및/또는 구조 (structure, 예를 들어 특정 테이블 내에서 데이터의 배치, 각 데이터 단위의 형식, 데이터 값의 종류 등) 는 각 생산자의 기호가 반영되어 갈수록 다양해지는 실정이고, 이처럼, 다양항 방식으로 생산되고 축적된 데이터 집단에서 제 3 의 사용자가 활용하고자 하는 희망 데이터 영역을 추출하는 것에는 많은 문제점이 뒤따른다.
따라서, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단에 대해, 이러한 데이터 집단을 파싱 (parsing) 가능한 형태로 변환하고, 희망 데이터 영역을 추출하는 기술이 필요하다.
본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단에 대해, 이러한 데이터 집단을 파싱 (parsing) 가능한 형태로 변환하고, 희망 데이터 영역을 추출하는 방법을 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계; 추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계; 상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및 우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.
일 실시예에 있어서, 상기 우선순위 도출 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고, 상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.
일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.
일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계; 및 추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.
일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.
또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 또 다른 일 측면은 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계; 및 상기 규칙 적용 결과 상기 데이터 내의 일영역이 상기 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.
일 실시예에 있어서, 상기 규칙 적용 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고, 상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.
본 발명의 일 측면에 따르면, 데이터 획득 단계 내지 최종 희망 데이터 영역 추출 단계를 통해, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단으로부터 사용자가 활용하고자 하는 희망 데이터 영역이 자동으로 신속하게 추출될 수 있다.
이로써, 사용자는 데이터 집단의 포멧 및/또는 구조에 구애받지 않고 원하는 데이터 부분을 획득할 수 있어서 데이터 활용도를 높일 수 있다.
나아가, 사용자가 원시 데이터 집단의 포멧 및/또는 구조를 별도로 파악해야하는 노력이 필요치 않게 되어, 데이터 접근성이 향상된다.
본 발명의 다른 측면에 따르면, 데이터 획득 및 희망 데이터 규칙을 함께 획득함으로써, 희망 데이터 영역 추출의 정확도를 향상시킬 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1 은 본 발명의 일 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
도 2 내지 도 5 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
도 6 은 본 발명의 또 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 용어의 설명은 본 명세서의 이해를 돕기 위한 것으로서 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.
- 파싱 (Parsing)
파서 (parser) 역할을 하는 컴퓨터가 문장 단위의 문자열을 의미 있다고 여겨지는 토큰 (token) 으로 분류하고 이를 구문 트리 (parse tree) 로 재구성하는 구문 분석 과정을 의미한다. 파싱 과정에서 부호에 불과한 일련의 문자열이 기계어로 번역되어 유의미한 의미 단위가 된다.
한편, 구문 분석이란 일련의 문자로 나열된 문장 내에서 의미 단위를 떼어내는 작업으로서, 이러한 의미 단위가 중심적인 요소인지 교착되는 요소인지 등의 위계를 정하고 분류하는 행위까지를 포함할 수 있다.
- 셀 (Cell)
스프레드시트 프로그램 등에서 데이터가 입력되는 기본 영역으로서, 스프레드시트의 기본적인 형태를 구성하는 가로와 세로 격자 모양인 행과 열의 상호 교차에 의해 만들어지는 사각형 영역이다.
- 필드 (Field)
컴퓨터의 명령어와 같은 일단의 데이터 중에서 고정된 위치의 범위를 의미한다. 예를 들어, 하나의 레코드 중에서 특정 종류의 데이터를 위해서 사용되는 지정된 영역을 의미할 수 있다.
- 컴퓨터 (Computer)
데이터를 파싱 (Parsing) 가능한 형태로 변환하고 변환된 데이터로부터 사용자가 활용하고자 하는 희망 데이터 영역 추출을 수행하는 엔진을 실행할 수 있다. 일 실시예에서, 컴퓨터는 메모리나 서버, 인터넷 등과 같은 로컬 또는 원격 저장 장치로부터 데이터를 얻는다. 다른 실시예에서, 컴퓨터에서 실행되는 애플리케이션 프로그램을 사용하여 데이터가 컴퓨터에서 생성된다.
컴퓨터는 사용자 또는 기타 엔티티로부터 입력 또는 피드백을 얻어 이를 적용하도록 구성될 수 있다. 피드백은 출력에 관한 사용자 또는 기타 엔티티의 선호도를 이해하기 위해 컴퓨터에서 해석될 수 있다. 입력 또는 피드백은 사용자나 기타 엔티티로부터 직접 얻거나 및/또는 컴퓨터에 의해 생성될 수 있는 하나 이상의 프롬프트(prompt)에 대한 응답에서 얻을 수 있다. 이런 입력 또는 피드백에 기반하여, 컴퓨터는 최종 희망 데이터 영역을 추출할 수 있다. 또한 컴퓨터는 나중의 사용을 위해 희망 데이터 영역 추출 단계에서 각 후보 데이터 영역에 부여되는 우선순위를 저장하거나 및/또는 그 밖의 다른 데이터에 대한 적용을 위해 우선순위를 저장하도록 구성될 수 있다.
본 발명에서 설명되는 대상이 컴퓨터 시스템상의 운영 체제 및 응용 프로그램의 실행과 연계하여 실행되는 프로그램 모듈의 일반적인 범주에서 제시되지만, 본 기술분야에 관한 통상의 기술자는 다른 타입의 프로그램 모듈과 조합하여 다른 구현예들이 수행될 수 있음을 인지할 것이다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고, 특정 작업을 수행하는 또는 특정 추상 데이터 타입을 구현하는 다른 타입의 구조를 포함한다. 나아가, 본 기술분야에 관한 통상의 기술자는 본원에서 설명되는 대상이 핸드-헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 가전, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 이해할 것이다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
도 1 을 참조하면, 데이터 획득 단계 (S100) 에서는 데이터 집단으로부터 데이터를 읽어올 수 있다. 이 때, 읽어오는 데이터의 포멧 및/또는 구조는 제한되지 않는다. 또한, 포멧 및/또는 구조가 일률적이지 않고 다양하게 조합되어 있는 데이터 역시 포함될 수 있다. 이하에서는 설명의 편의를 위해 데이터 획득 단계 (S100) 에서 최초로 읽어들인 데이터를 로데이터 (Raw Data) 라고 지칭한다.
데이터를 파싱 (Parsing) 가능한 형태로 변환하는 단계 (S200) 에서, 로데이터는 파싱이 가능한 형태로 변환될 수 있다. 파싱이 가능한 형태란, 실제 유의미한 데이터로 취급되는 정보를 제외한 기타 정보들이 제거된 형태를 의미한다. 예를 들어, MS 사의 상용 프로그램인 엑셀 파일로 저장된 데이터를 로데이터로 읽어들인 경우, 로데이터에 부가된 속성 정보 (글자 색, 글자 크기, 셀 속성 등) 들은 제거되고 실제 데이터로 취급되는 정보만 텍스트 파일 형태로 변환될 수 있다. 로데이터에서 파싱 가능한 형태로의 변환은 이에 한정되지 않고, 로데이터의 종류, 사용된 언어 및 저장된 방식 등에 따라 다양하게 이루어질 수 있다.
희망 데이터 영역 후보 추정 단계 (S300) 에서, 파싱 가능한 형태로 변환이 완료된 데이터로부터 사용자가 활용하고자 하는 희망 데이터 영역 후보들이 추정될 수 있다. 즉, 데이터의 배치 형태를 분석하는 데이터 구조 분석 및/또는 문장 단위의 문자열을 토큰 (token) 으로 분류하고 이를 기계어로 번역하여 데이터 정보를 파악하는 구문 분석이 수행될 수 있다. 구조 분석 및/또는 구문 분석을 통해 희망 데이터로 추정되는 영역이 선정될 수 있다. 선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다.
추정된 희망 데이터 영역 평가 단계 (S400) 에서는, 전 단계에서 선정된 희망 데이터 영역 후보들에 대해, 각각의 활용도 평가가 수행될 수 있다. 예로, 각 희망 데이터 영역 후보들에 포함된 오류값의 수가 측정될 수 있고, 또는 추가적인 정제가 필요한 데이터인지 평가될 수 있다. 오류값의 수 측정과 정제가 필요한지 여부가 동시에 평가될 수 있음은 물론이며, 활용도 평가 방식은 이에 한정되지 않는다.
활용도 평가 결과는 별도로 또는 각 데이터 영역 후보에 태그 정보로서 저장될 수 있다.
평가 결과에 따라 우선순위 도출 단계 (S500) 에서, 활용도 평가 결과에 따라 희망 데이터 영역 후보들에 대해 우선순위가 부여될 수 있다. 예로, 오류값의 수가 적을 수록 및/또는 추가적인 정제가 필요치 않을 수록 높은 우선순위가 부여될 수 있다.
부여된 우선순위 정보는 별도로 또는 각 데이터 영역 후보에 태그 정보로서 저장될 수 있다.
희망 데이터 영역 후보 추정 단계 (S300) 로부터 평가 결과에 따라 우선순위 도출 단계 (S500) 를 거친 데이터에 대해, 희망 데이터 영역 후보로 선정된 데이터의 영역정보, 활용도 평가 정보 및 우선순위 정보가 생성되어 별도로 또는 데이터 영역에의 태그 정보로서 저장될 수 있다. 별도로 저장되는 경우라도, 각 정보들은 해당 데이터 영역과 연동되어 있다.
최종 희망 데이터 영역 추출 단계 (S600) 에서, 최우선 데이터 영역이 최종 희망 데이터 영역으로 추출될 수 있다. 최우선 희망 데이터 영역 후보가 복수로 선정되는 경우, 복수의 데이터 영역 모두가 최종 희망 데이터 영역으로 추출된다.
데이터 획득 단계 (S100) 내지 최종 희망 데이터 영역 추출 단계 (S600) 를 통해, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단으로부터 사용자가 활용하고자 하는 희망 데이터 영역이 자동으로 신속하게 추출될 수 있다. 이로써, 사용자는 데이터 집단의 포멧 및/또는 구조에 구애받지 않고 원하는 데이터 부분을 획득할 수 있어서 데이터 활용도를 높일 수 있다.
나아가, 사용자가 원시 데이터 집단의 포멧 및/또는 구조를 별도로 파악해야하는 노력이 필요치 않게 되어, 데이터 접근성이 향상된다.
도 2 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
상기 도 1 의 설명과 중복되는 설명은 생략한다.
도 2 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 평가 결과에 따라 우선순위 도출 단계 (S510) 와 최종 희망 데이터 영역 추출 단계 (S710) 사이에, 사용자로부터 피드백을 얻는 단계 (S610) 를 더 포함할 수 있다. 그리고, 사용자뿐만 아니라, 기타 엔티티로부터 피드백을 얻을 수 있다.
피드백은 좋아함/싫어함으로, 질문에 대한 예/아니오 또는 참/거짓 해답으로, 별 개수, 범위 내의 숫자, 문자 등급과 같은 등급 정보로, 선택 또는 순서 변경과 같은 간단한 동작의 외삽법을 통해 제공될 수 있다.
피드백이 입력되면, 최종 희망 데이터 영역 추출 단계 (S710) 에서 적어도 부분적으로 피드백을 반영하여 최종 희망 데이터 영역을 추출할 수 있다. 몇몇 실시예에서, 피드백은 희망 데이터 영역 후보에 부여된 우선순위를 수정하고 및/또는 우선순위 부여에 관여하는 정보들을 조절하는데 사용될 수 있다. 또한, 피드백에 의해 우선순위 부여에 관여하는 정보들이 수정되는 경우, 희망 데이터 영역 후보들에게 우선순위를 재부여하는 단계 (미도시) 가 추가적으로 실시될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.
도 3 은 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.
도 3 을 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계 (S320) 를 포함한다.
데이터가 파싱 가능한 형태로 변환된 상태라도, 로데이터가 원시적으로 가지고 있던 구조적인 문제는 그대로 남아있을 수 있다. 예를 들어, 데이터 존재 영역과 데이터 비존재 영역으로 구분되거나, 상기 양 영역이 교대로 나타날 수 있다. 또한, 데이터 존재 영역과 데이터 비존재 영역이 행단위, 열단위, 셀단위, 토큰 단위에서 무작위로 섞여있을 수 있다.
이 경우, 본 실시예에 따르면, 데이터 비존재 영역은 건너뛰고, 데이터 존재 영역만을 희망 데이터 영역 후보로 추정할 수 있다. 예를 들면, 사용자 또는 기타 엔티티에 의해 미리 결정되거나 사전 프로그래밍에 의해 입력된 특정 수준 이상으로 데이터가 연속적으로 존재하는 영역만이 희망 데이터 영역 후보로 추정되고 선정될 수 있다.
선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.
도 4 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.
도 4 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계 (S330); 및 추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계 (S430) 를 포함한다.
본 발명의 상세한 설명에서는 셀 단위라고 표현하였으나, 이에 한정되지 않고 토큰 (token) 단위는 물론 분절된 데이터 단위 모두를 의미한다.
또한, 셀 단위 데이터의 타입을 추출하는 단계 (S330) 대신에 사용자 또는 기타 엔티티에 의해 데이터 단위를 입력받는 단계가 포함될 수 있다.
이하에서는, 대표적으로 셀 단위를 기준으로, 셀 단위 데이터의 타입을 추출하는 단계를 거쳐 희망 데이터 영역 후보를 추정하여 선정하는 단계를 예를 들어 설명한다.
제 1 셀에 대해 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 로 나오는 경우, 이는 캐시메모리와 같은 컴퓨터 메모리의 일부에 저장될 수 있다. 인접한 제 2 셀로 이동하여, 제 2 셀의 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 로 동일하게 나오는 경우, 제 1 셀에서 제 2 셀로 이동한 방향이 다음 셀 이동 방향으로 선정될 수 있다. 선정된 셀 이동 방향으로 계속해서 이동하면서 각 셀에 대해 데이터 타입 분석을 수행하여, 각 셀의 데이터 타입이 '문자 숫자 문자 숫자 숫자' 와 부합하는지 판단할 수 있고, 부합하는 경우에는 희망 데이터 영역 후보에 포함시키고 그렇지 않은 경우에는 희망 데이터 영역 후보에서 제외시킬 수 있다. 또는 선정된 셀 이동 방향에 존재하는 모든 셀을 희망 데이터 영역 후보로 선정할 수도 있다.
제 2 셀의 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 와 상이하게 나오는 경우, 제 1 셀로 돌아가고, 제 1 셀에서 제 2 셀로 이동한 방향과 상이한 방향으로 다음 셀 검색이 수행될 수 있다. '문자 숫자 문자 숫자 숫자' 타입과 동일한 타입이 나올때 까지 이동을 반복할 수 있고, 만약 '문자 숫자 문자 숫자 숫자' 타입이 나오지 않는다면, 인접한 다음 셀을 제 1 셀로 하여 상기 과정들이 반복적으로 수행될 수 있다.
이는 셀 타입 분석을 통해 희망 데이터 영역 후보를 추정하는 일 예로써, 이에 한정되지 않고, 다양한 방식으로 변형실시될 수 있다.
선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.
도 5 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.
도 5 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계 (S340) 를 포함한다.
예를 들어, 제 1 데이터 필드 단위 내의 각 데이터 타입 분석 결과, 특정 데이터 타입 비중이 미리 결정된 특정비율 이상인 경우, 제 1 데이터 필드 단위 전체가 희망 데이터 영역 후보로 추정하고 선정될 수 있다.
만약, 데이터 전체 분석이 완료되었으나 특정비율 이상의 데이터 타입을 갖는 데이터 필드가 선정되지 않는 경우에는, 특정비율에 가장 근접한 데이터 필드를 희망 데이터 영역 후보로 추정하고 선정할 수 있다.
선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.
한편, 도 3 내지 도 5 를 통해 기재하고 있는 실시예에서도, 평가 결과에 따라 우선순위 도출단계 (S520, S630, S540) 와 최종 희망 데이터 영역 추출 단계 (S620, S730, S640) 사이에 피드백을 얻는 단계를 포함할 수 있다.
도 6 은 본 발명의 또 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.
상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.
도 6 을 참조할 때, 본 실시예에서는 데이터 집단으로부터 데이터를 읽어올 뿐만 아니라, 사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계 (S102) 를 포함한다.
희망 데이터 영역이 갖는 규칙은 희망 데이터 영역의 포멧, 구조 또는 형태에 따라 다양할 수 있다. 일 예로써, 데이터 분절 단위 (셀, 토큰 등) 가 갖는 타입일 수 있고, 다른 예로써 희망 데이터 영역의 필드일 수도 있다. 다만, 이에 제한되는 것은 아니다.
읽어온 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계 (S201) 를 거쳐서 변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계 (S301) 가 수행될 수 있다.
규칙 적용 단계 (S301) 에서의 데이터와 규칙의 상호 비교는 입력된 규칙에 따라 다양한 방식으로 실시될 수 있다. 일 예로써, 데이터 분절 단위 (셀, 토큰 등) 가 갖는 타입을 규칙으로 입력받은 경우에는 데이터 분절 단위 (셀, 토큰 등) 가 일영역이 되어 규칙과 1:1 매칭되어 비교될 수 있고, 데이터 영역의 필드를 규칙으로 입력받은 경우에는 필드 단위가 일영역이 되어 규칙과 1:1 매칭되어 비교될 수 있다.
규칙 적용 결과 데이터 내의 일영역이 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출할 수 있다.
만약, 비교가 끝난 데이터 내의 일영역이 규칙에 부합되지 않는 경우에는, 비교 영역이 이동되는 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 가 수행될 수 있다. 그리고, 이동이 완료되면, 새로운 영역이 규칙에 부합되는지 판단하는 단계 (S502) 가 수행될 수 있다.
새로운 영역이 규칙에 부합되는 경우에는 이 영역이 최종 희망 데이터 영역으로 추출될 수 있고, 규칙에 부합되지 않는 경우에는 다시 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 로 회귀하여 규칙에 부합되는 데이터 영역이 추출될 때까지 루프 알고리즘이 형성될 수 있다.
본 실시예와 같이 희망 데이터 규칙을 함께 획득함으로써, 추출되는 희망 데이터 영역의 정확도가 향상될 수 있다.
그리고, 본 발명의 다른 실시예에 따르면, 상기 규칙 적용 단계 (S301) 와 상기 최종 희망 데이터 영역 추출 단계 (S601) 사이에, 상기 사용자로부터 피드백을 얻는 단계 (S401) 가 더 포함될 수 있다.
나아가, 이 경우에는 상기 최종 희망 데이터 영역 추출 단계 (S601) 에서 적어도 부분적으로 상기 피드백이 반영될 수 있다.
즉, 데이터 내의 일영역이 규칙 적용 단계 (S301) 및 피드백을 얻는 단계 (S401) 를 모두 통과하는 경우에는 최종 희망 데이터 영역으로 추출될 수 있다.
만약 피드백을 얻는 단계 (S401) 를 통과하지 못한 경우에는 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501), 새로운 영역이 규칙에 부합되는지 판단하는 단계 (S502) 를 거쳐 다시 피드백을 얻는 단계 (S401) 로 회귀하거나, 새로운 영역이 규칙에 부합되지 않는 경우에는 바로 다시 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 로 회귀하여 규칙에 부합되고 피드백 단계도 통과하는 데이터 영역이 추출될 때까지 루프 알고리즘이 형성될 수 있다.
이와 같이 피드백 단계를 한번 더 거침으로써, 추출되는 희망 데이터 영역의 정확도가 더욱 향상될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
[부호의 설명]
S100 : 데이터 획득 단계
S200 : 데이터를 파싱 (Parsing) 가능한 형태로 변환하는 단계
S300 : 희망 데이터 영역 후보 추정 단계
S400 : 추정된 희망 데이터 영역 평가 단계
S500 : 평가 결과에 따라 우선순위 도출 단계
S600 : 최종 희망 데이터 영역 추출 단계

Claims (7)

  1. 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계;
    상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계;
    변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계;
    추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계;
    상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및
    우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법.
  2. 제 1 항에 있어서,
    상기 우선순위 도출 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고,
    상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 희망 데이터 영역 후보 추정 단계는,
    연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 희망 데이터 영역 후보 추정 단계는,
    데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계; 및
    추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 희망 데이터 영역 후보 추정 단계는,
    데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
  6. 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계;
    사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계;
    상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계;
    변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계; 및
    상기 규칙 적용 결과 상기 데이터 내의 일영역이 상기 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법.
  7. 제 6 항에 있어서,
    상기 규칙 적용 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고,
    상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법.
PCT/KR2017/012140 2016-10-31 2017-10-31 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법 WO2018080278A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0143619 2016-10-31
KR1020160143619A KR101746825B1 (ko) 2016-10-31 2016-10-31 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법

Publications (1)

Publication Number Publication Date
WO2018080278A1 true WO2018080278A1 (ko) 2018-05-03

Family

ID=59218022

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012140 WO2018080278A1 (ko) 2016-10-31 2017-10-31 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법

Country Status (2)

Country Link
KR (1) KR101746825B1 (ko)
WO (1) WO2018080278A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047974A (ja) * 2005-08-09 2007-02-22 Hokkaido Univ 情報抽出装置および情報抽出方法
KR20120070713A (ko) * 2010-12-22 2012-07-02 에스케이 텔레콤주식회사 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR101251686B1 (ko) * 2005-04-19 2013-04-05 마이크로소프트 코포레이션 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
KR20150122855A (ko) * 2014-04-23 2015-11-03 주식회사 나눔기술 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법
KR101644429B1 (ko) * 2016-02-17 2016-08-10 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326809B2 (en) 2008-10-27 2012-12-04 Sas Institute Inc. Systems and methods for defining and processing text segmentation rules
US8775120B2 (en) 2010-09-30 2014-07-08 Fitbit, Inc. Method of data synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101251686B1 (ko) * 2005-04-19 2013-04-05 마이크로소프트 코포레이션 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
JP2007047974A (ja) * 2005-08-09 2007-02-22 Hokkaido Univ 情報抽出装置および情報抽出方法
KR20120070713A (ko) * 2010-12-22 2012-07-02 에스케이 텔레콤주식회사 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20150122855A (ko) * 2014-04-23 2015-11-03 주식회사 나눔기술 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법
KR101644429B1 (ko) * 2016-02-17 2016-08-10 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법

Also Published As

Publication number Publication date
KR101746825B1 (ko) 2017-06-14

Similar Documents

Publication Publication Date Title
Chen et al. BigGorilla: An open-source ecosystem for data preparation and integration.
WO2014025135A1 (ko) 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
CN111512315A (zh) 文档元数据的按块提取
WO2011053046A2 (ko) 엑셀기반 분석보고서 작성 시스템 및 방법
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
WO2021049706A1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
WO2014030834A1 (ko) 문법의 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2011162446A1 (ko) 온톨로지 스키마와 결합된 개체명 사전 및 마이닝 규칙을 이용한 용어의 개체명 결정모듈 및 방법
WO2019093675A1 (ko) 빅데이터 분석을 위한 데이터 병합 장치 및 방법
CN108664635A (zh) 数据库统计信息的获取方法、装置、设备和存储介质
WO2020242086A1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
WO2018131955A1 (ko) 디지털 컨텐츠를 분석하는 방법
WO2018088664A1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN109240903A (zh) 一种自动评估的方法和装置
WO2022124573A1 (ko) 메뉴 구조 및 스크립트 내 키워드 기반 웹 사이트의 유사도 평가 방법
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
WO2020032320A1 (ko) 원자력 발전소 지능형 일반기기 배치 도면 표현 및 활용 장치
WO2022080583A1 (ko) 시계열 분포 특징을 고려한 딥러닝 기반 비트코인 블록 데이터 예측 시스템
WO2018080278A1 (ko) 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법
JP2017151678A (ja) トピック推定装置、トピック推定方法、およびプログラム
CN110688842B (zh) 一种文档标题层级的分析方法、装置及服务器
CN113111659A (zh) 电力巡检工作票生成方法、系统、设备及存储介质
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2012030049A2 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
WO2015133774A1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17865681

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11.09.2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17865681

Country of ref document: EP

Kind code of ref document: A1