KR20150043338A - 캐시처리된 데이터베이스 질의 결과의 업데이트 - Google Patents
캐시처리된 데이터베이스 질의 결과의 업데이트 Download PDFInfo
- Publication number
- KR20150043338A KR20150043338A KR20157004168A KR20157004168A KR20150043338A KR 20150043338 A KR20150043338 A KR 20150043338A KR 20157004168 A KR20157004168 A KR 20157004168A KR 20157004168 A KR20157004168 A KR 20157004168A KR 20150043338 A KR20150043338 A KR 20150043338A
- Authority
- KR
- South Korea
- Prior art keywords
- database query
- probability
- computed
- query result
- real
- Prior art date
Links
- 230000008080 stochastic effect Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 37
- 101000844801 Lactiplantibacillus plantarum (strain ATCC BAA-793 / NCIMB 8826 / WCFS1) D-alanyl carrier protein 2 Proteins 0.000 description 28
- 230000008859 change Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 230000004044 response Effects 0.000 description 15
- 230000010006 flight Effects 0.000 description 10
- 238000013179 statistical model Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000001737 promoting effect Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
데이터 캐시 플랫폼은 계산 플랫폼에 보관된 데이터에 기초하여 계산 플랫폼에 의해 계산된, 선행 계산된 데이터베이스 질의 결과를 보관하며, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정하고, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여, 선행 계산된 데이터베이스 질의 결과를 업데이트하기 위하여 상기 계산 플랫폼으로 재계산 명령을 자동으로 발송하고, 상기 재계산 명령의 결과로서, 업데이트된 선행 계산 데이터베이스 질의 결과를 수신하도록 구성된다. 확률 결정은 확률 모델 및 비동기 실시간 이벤트의 발생에 의존한다. 실시간 이벤트는 선행 계산된 데이터베이스 질의 결과의 만료에 관하여 비결정적이며, 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치에 확률적인 영향만을 미친다.
Description
본 발명은 데이터베이스 기술 분야에 관련된 것으로, 구체적으로는 데이터베이스 질의 결과의 선행 계산 및 캐시처리, 그리고 그 결과를 최신상태로 유지하는 전략에 관한 것이다.
데이터베이스 기술에서의 일반적인 문제는, 많은 양의 데이터를 처리해야 하는 데이터베이스 질의(database query)에 대한 응답 시간을 단축하는 것이다. 예를 들어, 적은 입력 정보만이 포함되는 소위 "개방형 질의(open query)"(예를 들어, 수십 개의 가능 파라미터들 중에서 한 두 개의 파라미터만 지정된 질의, 그리고/또는 파라미터의 특정 값의 범위가 넓은 질의)에 응답하기 위해서는 많은 컴퓨터 능력이 소비되는 프로세스가 수행되어야 하며, 이에 따라 결과적으로, 많은 양의 결과가 나오게 되는 것이 일반적이다. 하드웨어 성능을 증가시켜서 데이터 처리 속도를 높이는 것에는 한계가 있다. 따라서, 대량 데이터 처리의 바탕이 되는 메커니즘을 개선하는 데에 주목해야 한다.
질의 시간(query time)을 단축하는 한 가지 일반적인 방법은 예상 질의를 선행 계산(pre-compute)하고 그 질의 결과(query result)를 캐시 시스템에 보관하는 것이다. 이와 같이 하여, 질의가 큰 데이터 단위로서 실제로 처리되지 않고 캐시 시스템으로 전달된다.
그러나 이러한 캐시 운용법에 수반되는 또 다른 문제는, 캐시처리 결과(cached result)로서 응답되는 질의가 그에 상응하는 큰 데이터 단위의 상태(status)를 정확하게 반영하도록 하기 위해, 선행 계산된 질의 결과를 최신상태(up-to-date)로 유지하는 것이다. 기본 데이터(underlying data)가 변경되면 캐시처리된 질의 결과는 최신상태가 아니게 되며, 캐시 시스템은 잘못된 결과를 내놓게 될 것이다. 그러므로, 캐시 시스템이 어떻게 최신상태를 유지하도록 할지의 전략이 필요하다.
비교적 간단한 업데이트 전략이 종래에 여러가지 공지되어 있다. 예를 들어, 전체 데이터 영역(data domain)을 자주 재계산(re-compute)하는 방법, 수동으로 재계산 일정을 수립하고 유지하는 방법, 데이터가 너무 오래되었을 경우에 데이터를 재계산하는 방법이 있다.
약간 더 복잡한 업데이트 전략이 개발되었는데, 예로서, WO 01/33472 및 WO 02/25557에 개시되어 있다.
WO 01/33472는, 여행 계획 시스템에 사용되는 이용가능성(availability) 시스템에 관한 것이다. 이 시스템은 항공기 좌석에 관한 이용가능성 정보가 들어있는 캐시를 포함한다. 캐시 관리자는 캐시 내의 정보를 적확하게, 최신상태로, 완전하게, 아니면 가능한한 유용하게 유지하기 위해 캐시 내에 들어있는 정보를 관리한다. 캐시 관리자는, 질의가 캐시로 전달되면 저장되어 있는 답변이 최신상태가 아닌 것인지를 판단하고, 그러하다면, 이용가능성 정보가 들어 있는 소스(정보원)로 이용가능성에 관한 질의를 전송한다. 캐시에 입력되어 있는 정보는, 외부 시스템으로부터의 비동기 통지(asynchronous notification)에 의해서 수정 및 취득되어야 하며, 결정론적, 예측적, 또는 통계적 모델에 의해 정해진다.
유사하게, WO 02/25557는, 정보원(정보 소스)으로부터 수신된 정보를 향후의 사용을 위해, 예컨대 향후의 클라이언트 요청을 위해 캐시처리하는 것에 관한 것이다. 캐시를 채우기(populate) 위해 그리고/또는 현재 캐시처리되어 있는 정보를 업데이트하기 위해 사전 질의(proactive query)를 생성할 수 있다. 항공 정보 시스템에서, 이 사전 질의는, 출발 시간에의 근접성, 캐시 데이터의 연령(age), 항공기에 남아 있는 좌석, 휴일이나 특별한 이벤트 또는 설비 유형 등과 같은 통계 또는 예측 표시를 기준으로 정렬된다. 또한, 업데이트 정보는 항공사로부터의 외부 통지, 가령 AVS 메시지를 통해 수신된다.
또한, WO 99/22315는 통계에 기반한 확률 모델을 사용하여 캐시 내의 문서를 자동으로 새로고침(refresh)하는 메커니즘을 개시한다. 각 문서에 대해서 캐시는, 캐시처리된 개체 i가 특정 시간 t에서 최신상태가 아닐(즉, 서버가 해당 객체를 변경한 경우) 확률 Psi(t)와, 사용자가 요청 시간 h로 객체 i를 요청할 확률 Pri(h)를 결정한다. 캐시는, 가장 높은 확률곱 Pi=Psi(t)×Pri(h), 즉, 최신상태가 아닌 객체가 다음 번 요청시에 사용자에게 제공될 확률로써, 해당 객체를 새로고침(리프레시)한다. 이 확률 값을 유지하기 위해, 캐시는 캐시처리된 객체에 대한 이력 통계자료, 예컨대, 서버의 업데이트 간의 추정 평균 간격 EUI를 보관하고 추적한다. 객체의 EUI는, 예를 들어 객체 자체가 서버에 의해 업데이트될 경우에 또는 객체가 그 추정되는 평균 리프레시 시간이 경과하였으나 업데이트되지 않은 경우에 업데이트된다.
본 발명의 한 특징에 따르면, 분산 데이터베이스 시스템에서 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법이 제공된다. 분산 데이터베이스 시스템은 선행 계산된 데이터베이스 질의 결과가 보관되는 데이터 캐시 플랫폼과, 선행 계산된 데이터베이스 질의 결과를 계산 플랫폼에 보관된 데이터에 기초하여 계산하는 계산 플랫폼을 포함한다. 데이터 캐시 플랫폼은 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정한다. 이 결정은 확률 모델 및 비동기 실시간 이벤트의 발생에 의존한다. 확률 모델은 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치를 모델링한다. 실시간 이벤트는 선행 계산된 데이터베이스 질의 결과의 만료에 관하여 비결정적이며, 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치에 확률적인 영향만을 미친다. 상기 확률은 전반적으로 확률 모델에 기초하여 결정되고, 가능한 경우에, 비동기 실시간 이벤트의 발생시에 수정된다. 상기 데이터 캐시 플랫폼은 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여, 선행 계산된 데이터베이스 질의 결과를 업데이트하기 위하여 상기 계산 플랫폼으로 재계산 명령을 자동으로 발송한다. 다른 것들보다 더 큰, 최신상태가 아닐 확률을 갖는 선행 계산된 데이터베이스 질의 결과는 재계산 명령을 받는다. 이 재계산 명령의 결과로서, 데이터 캐시 플랫폼은 업데이트된 선행 계산 데이터베이스 질의 결과를 수신한다.
본 발명의 다른 특징에 따르면, 데이터베이스 캐시 플랫폼은 상기 방법을 실행하도록 구성된다.
다른 특징에 따르면, 컴퓨터 시스템상에서 실행될 때 상기 방법을 수행하도록 구성되는 비일시적인 컴퓨터 판독 가능한 저장 매체가 제공된다.
보다 상세한 다른 특징들은 종속 청구항에 기재되어 있다.
본 발명을 첨부 도면을 참조하여 설명한다. 전반적으로, 동일한 참조 번호는 동일하거나 기능적으로 유사한 구성요소를 지칭한다.
도 1은 분산 데이터베이스 시스템의 일반적인 개요도이다.
도 2는 일 실시예에 따른 분산 데이터베이스 시스템의 보다 상세한 도면이다.
도 3은 일 실시예에 따른 캐시 플랫폼의 구성 요소를 나타낸다.
도 4a는 확률 모델에 따른 시간 경과에 대한 변경의 효과를 나타낸다.
도 4b는 실시간 이벤트에 응답하여 확률 모델을 수정하는 것을 나타낸다.
도 5는 본 방법의 일 실시예에 따른 흐름도를 도시한다.
도 6은 일 실시예에 따른 재계산에 있어서의 예시적인 자원 가용도를 나타낸다.
도 7은 일 실시예에 따른 캐시 플랫폼 컴퓨터의 개략도이다.
도 1은 분산 데이터베이스 시스템의 일반적인 개요도이다.
도 2는 일 실시예에 따른 분산 데이터베이스 시스템의 보다 상세한 도면이다.
도 3은 일 실시예에 따른 캐시 플랫폼의 구성 요소를 나타낸다.
도 4a는 확률 모델에 따른 시간 경과에 대한 변경의 효과를 나타낸다.
도 4b는 실시간 이벤트에 응답하여 확률 모델을 수정하는 것을 나타낸다.
도 5는 본 방법의 일 실시예에 따른 흐름도를 도시한다.
도 6은 일 실시예에 따른 재계산에 있어서의 예시적인 자원 가용도를 나타낸다.
도 7은 일 실시예에 따른 캐시 플랫폼 컴퓨터의 개략도이다.
도면에 기초하여 상세한 설명을 하기 전에 개괄적인 측면에 관하여 몇 가지를 도 1을 참조하여 먼저 설명한다.
데이터베이스 질의, 또는 대량의 기본 데이터 단위로 계산을 해야 하는 일괄 계산(batch computation) 요청을 처리하기 위하여, 일반적으로, 예상 질의에 상응하는 데이터베이스 질의 결과를 선행 계산(pre-compute)하고 캐시처리(cache)한다(이하에서, "질의(query)"라는 용어는 트랜잭션 질의, 일괄 계산의 요청, 및 기타 형태의 모든 종류의 요청을 포함하는 일반 용어로서 사용한다). 캐시처리된 결과(또는 '캐시처리' 결과라고도 사용함)는 저장되어서 실제로 발생한 질의에 대한 응답으로서 질의 주체에게 제공된다. 도 1은 이러한 데이터베이스 시스템(1)을 관념적 수준에서 도시한 것이다. 기본 데이터(underlying data)는, 캐시 플랫폼(2)에 연결된 계산 플랫폼(3) 내에 보관된다. 캐시 플랫폼(2)은 계산 플랫폼(3)으로 재계산 명령을 하달하고, 이에, 계산 플랫폼(3)은 상응하는 선행 계산된 질의 결과를 캐시 플랫폼(2)으로 전송하여 저장하도록 한다.
이렇게 선행 계산된 질의 결과를 캐시처리하는 접근 방식은 기본 데이터 영역의 데이터가 시간에 따라 변경될 수 있기 때문에 선행 계산된 질의 결과가 최신상태가 아니게 되는 일반적인 문제를 일으킨다. 이하에서는, 계속해서 최신상태(업데이트된 상태)로 있는, 즉, 상응하는 실시간 계산 상당물과 일치하는 캐시처리된 질의 결과(사용가능한 캐시처리된 선행 계산 결과 없이, 요구에 따라 실제로 계산될 결과)를 "적확한(accurate)" 캐시처리 결과라고 부를 것이다. 따라서, 캐시처리된 질의 결과(또는 '캐시처리' 질의 결과라고도 사용함)의 기본이 되는 데이터 영역의 현재 상태가 캐시에서 적확하게 출력될 경우에, 이 캐시는 일반적으로 적확한 캐시이다.
일반적으로, 캐시에 기초하여 적확한 결과를 제공하기 위해서는, 데이터베이스 질의에 응답하여 질의 주체에게 제공되는 캐시처리된 데이터베이스 질의 결과와 그 실시간 계산 상당물 사이에 높은 수준의 상관 관계(correlation)를 유지하는 것이 필요하다. 그러나 동시에, 재계산으로 인한 리소스(자원) 소비를 최소화하는 것이 바람직하다. 즉, 여전히 적확한 상태의 캐시처리 질의 결과를 재계산하는 것과 같은 불필요한 재계산을 피하는 것이 바람직하다. 계산 자원은 한정되어 있으며, 일반적으로는, 모든 캐시처리 질의 결과를 재계산하기 위한 계산 자원은 충분하지 않다. 따라서, 캐시 적확성(cache accuracy)와 가용 컴퓨팅 능력의 사용 간에 절충안(trade-off)을 찾아야 한다.
선행 계산된 질의 결과가 있는 캐시를 최신상태로 유지하기 위한 상기 간단한 접근법에는 몇 가지 단점이 있다.
전체 데이터 영역을 자주(예컨대, 하루에 한 번) 재계산하는 것은, 데이터의 양 및 가용 자원에 따라서는, 캐시 적확성 및 실시간 응답 간의 적당한 균형을 보장할 수도 있을 것이다. 그러나, 이 방법은 확장가능성이 거의 없으며 하드웨어 자원 소비의 관점에서 비효율적이다. 특히, 대응되는 기본 데이터가 변경되지 않아서 여전히 유효한 상태인 질의 결과들도 재계산된다.
어느 질의 결과를 인간 관리자에 의해서 수동으로 어느 때에 재계산해야 할지를 결정하기 위한 재계산 일정을 수립하는 것은, 특정 목적을 위해서는 효율적인 것이 될 수는 있겠지만, 이것은 경직되고 융통성이 없다. 일정의 기본이 되는 가정 또는 조건이 변경될 때에는 이 일정을 재수립해야 한다. 또한 기본 데이터 영역에서 다량의 변경에 관련된 이벤트가 발생할 경우에는 캐시 품질의 급격한 저하가 일어날 수 있는바, 이것을 동적으로 추적할 수는 없다. 또한, 이렇게 일정을 수동으로 설계하는 것은 객관적인 품질 기준의 누락으로 인해 어려우며, 인력 측면에서 그 유지관리도 어렵다.
또 다른 접근법은 데이터가 너무 오래된 경우에 데이터를 재계산하는 것이다. 그러나, 기본 데이터와 재계산해야 할 질의 결과의 특성에 따라서 다르기는 하지만, "오래된 것"의 적절한 임계값을 평가하는 것은 어려울 수 있다.
재계산을 보다 효율적으로 행하기 위해, 얼마나 재계산이 "불필요"한지 평가하기 위한 척도를 정의해야 한다. 예를 들어, 계산된 질의 결과의 절반 미만이 최신상태가 아닌 것으로 판명된 경우에는 매일 전체적으로 대대적인 선행 계산을 재개할 가치가 없다. 반면에, 질의 결과의 특정 등급(class)이 빈번하게 변경되는 것을 알고 있는 경우에는, 하루에 여러 번 이들을 재계산하는 것이 적확성을 위해 유리할 것이다. 따라서, 적확성에 따른 이득 및 재계산 비용을 모두 참작하여, 질의 결과의 적확성을 평가하거나 추정하는 효과적인 방법이 필요하다.
본 발명에서 제시하는 캐시 업데이트 전략에 따르면, 데이터베이스 질의 결과의 재계산 여부는, 캐시처리된 데이터베이스 질의가 최신상태가 아닐(outdated) 확률, 즉, 다른 재계산에 의해 얻어지는 결과와 다르게 될 가능성에 기초하여 결정된다. 최소한, 특정의 사전에 정해진 부적확성의 확률을 갖는 캐시처리 질의 결과만이 재계산되며, 기본 데이터를 여전히 적확하게 반영할 가능성이 큰, 즉, 최신상태가 아닐 확률이 낮은 다른 캐시처리 질의 결과는 재계산되지 않는다.
본 발명에서 제시하는 캐시 업데이트 전략은, 제1 양태로서, 예측 모델(predictive model)에 기반한, 선행 계산 데이터베이스 질의 결과의 전체 캐시의 적확성을 추정하는 수단에 의존한다. 또한 제2 양태로서, 이들 추정이 전반적으로 실제성에 부합하는지를 체크하여서, 실시간의(실제 상황의) 현실 이벤트(예를 들어 캐시처리 질의의 기본이 되는 데이터의 중요 부분이 변경되었다는 것을, 그리고 이 변경으로 인해서 해당 캐시처리 질의가 최신상태가 아니게 되었음을 표시하는 역할을 할 수 있는 이벤트)의 발생시에 상기 모델 기반 재계산 전략이 여전히 유효하다는 것을 검증한다.
예측 모델은(이 모델에 전적으로 의존하여 캐시 적확성을 추정함), 캐시처리된 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 차이를 모델링한다. 즉, 특정 캐시처리 질의 결과의 적확성 또는 부적확성을 근사화한다. 이 모델은 예를 들어, 시간에 따라 일어날 가능성이 있는 캐시처리 결과의 변동성을 모델링한다. 캐시처리된 결과의 변동성에 관한 가정은, 각 데이터 영역의 내용에 관한 (과거의) 현실 세계의 경험으로부터 추단(conclude) 및 추론(extrapolate)된다. 따라서, 예측 모델은 전반적으로, 선행 계산된 데이터베이스 질의 결과의 변동성(volatility) 및/또는 적확성(accuracy)의 관점에서 실제성을 나타낸다.
다양한 종류의 모델을 사용할 수 있다. 예를 들어, 예측 모델은 과학적 모델링으로 공지되어 있는 구조적 모델링 과정에 의해서 생성된 개념적 모델일 수 있다. 모델링은, 현실 세계 환경의 해당 양태 및 이벤트(예를 들면, 선행 계산되고 캐시처리된 질의 결과의 시간에 따른 변동성 그리고 적확성 감소에 영향을 미치는 양태 및 이벤트)를 식별하고 선택하며 모델의 목적에 특히 적합하지 않은 다른 양태는 고려하지 않아야 할 것이다. 또한, 식별되고 선택된 양태들을 정리하여서, 처리가능한 형태로(가령, 컴퓨터 프로그램 및/또는 수학식으로) 정형화/구현할 수 있다. 이러한 개념적 모델은 또한, 시간의 경과에 따른 선행 계산된 데이터베이스 질의 결과의 거동(즉, 변동성/적확성)을 시뮬레이션하는 시뮬레이션 수단으로서 기능할 수 있다. 또는 이와 달리, 사용하는 예측 모델은, 예컨대 과거에 소정 시간 주기(예를 들어, 3개월)로 선행 계산된 질의 결과의 변동성/적확성의 감시 및 평가에 기반하며 장래의 추세를 추론하는 이력 통계 모델(historic-statistical model)일 수 있다. 이러한 이력 통계 모델의 특정 예는 다음에 상세하게 설명한다.
예를 들어, 기본 데이터는 항공 여행의 분야에 위치할 수 있으며, 출발 및 도착 공항, 항공사, 출발 및 도착 일자, 가격, 예약 등급 등의 항공편 정보를 포함할 수 있다. 이 항공 여행 관련 데이터는 계산 플랫폼에 보관되며, 고객에 의해서 항공편의 이용가능성 및 가격이 질의된다. 기본적인 항공편 데이터에 기초하여 가격을 계산하는 것은 자원 소비적이고 시간 소비적이다. 따라서, 실제 가격은 본 캐시 플랫폼에서 선행 계산되고 캐시처리된다. 이 예에서, 확률 모델은 시간 경과에 따른 항공편 가격의 변동성을 모델링한다.
이러한 모델을 구축하기 위해 알아야 할 것들은 출발일 이전의 항공편 가격의 거동 및 추이에 관한 현실 세계의 경험에서 취할 수 있다. 예를 들면, 항공편 가격은 각 출발일전 1개월 전에는 시간 경과에 따라 비교적 변동없이 유지되지만, 출발일 전의 한 달 동안에는 그 변동폭이 크다고 알려져 있을 것이다. 따라서, 확률 모델은, 다음 달로 임박한 항공편에 속하는 선행 계산된 캐시처리 가격을, 이보다 더 먼 미래의 항공편에 관련된 선행 계산된 가격보다 더 자주 재계산해야 한다.
확률 모델을 이용하여 캐시 적확성을 모델링하는 것 외에도, 실시간 이벤트에 반응함으로써 캐시 적확성의 급격한 하락을 방지한다. 캐시처리된 질의 결과의 적확성에 영향을 미칠 수 있는 소정의 실시간 이벤트를 수신하면, 재계산 여부의 결정을 수정한다. 실시간 이벤트는 비동기적(aynchronous)이다. 즉, 그 발생 시점이 미리 정해져 있지 않고 언제든지 일어날 수 있다. 들어오는 실시간 이벤트를 수신하고 처리할 수 있도록 하기 위하여, 캐시 데이터 플랫폼(2)에는, 캐시 데이터 플랫폼에 해당 정보를 적절하게 통지하는 통신 소스와의 외부 인터페이스가 구비될 수 있다.
이러한 실시간 이벤트는 예측 모델에서는 고려되지 않는 특정 상황에 관계될 수 있다. 예를 들어, 몇몇 캐시처리된 가격은 특정 기간(예컨대, 휴가철, 크리스마스 등)에 많이 변동될 수 있는 반면에, 다른 가격들은 홍보, 판촉에 의해 영향을 받을 수 있다. 또한 무역 박람회, 스포츠 행사 등, 그리고 파업 또는 자연 재해 등의 일시적 사건과 같은 "예외적" 상황에 의해서 "정상적" 모델의 인과 관계의 기초가 되는 전제가 변경될 수 있다. 이러한 특정 영향들은, 예외적 상황을 나타내는 각각의 실시간 이벤트에 응답하여서, 캐시처리 질의 결과가 최신상태가 아닐 확률을 결정할 때에 고려할 수 있다. 또는 대안적으로, 무역 박람회, 휴가철, 스포츠 행사 등의 예약된 이벤트의 영향을, 이벤트 날짜 전의 적절한 시점에 확률 모델 내로 도입할 수 있다.
본 발명에서 제시하는 업데이트 전략은 "불확정적" 이벤트(즉, 하나 이상의 선행 계산된 캐시처리 질의 결과를 확실하게 무효화시키지는 못하지만 캐시처리된 데이터베이스 질의 결과가 최신상태가 아닐 확률이 증가될 수 있다는 것을 나타내는 이벤트)를 참작할 수 있다는 것을 주목해야 한다. 환언하면, 이러한 이벤트는 캐시처리된 질의 결과의 적확성에 있어서 비결정적(indeterministic)이며, 다만, 캐시 플랫폼(2)에 보관된 캐시처리 질의 결과와 가설적 재계산의 결과로 나온 추정된 실제의 데이터베이스 질의 결과 사이의 차이에 확률적 영향을 미친다. 이는, 예를 들어 특정 항공편이 취소되었음을 AVS 메시지로 나타내는 WO 01/33472 및 WO 02/25557에 설명된 것과는 다르다. 따라서, 이러한 AVS 메시지의 수신시에, 각 항공편 좌석은 더 이상 서비스가능하지 않다는 것을 확실하게 알게 된다.
예를 들어, 전술한 바와 같은 여행 관련 데이터 저장의 맥락을 참조하면, 캐시처리 질의 결과의 적확성에 영향을 줄 가능성이 있는 실시간 이벤트는 운임 업데이트일 수 있다. 운임은, 출발지 및 목적지, 예약 등급, 항공편 유형(편도 또는 왕복), 금액, 및 요금을 실제 적용시에 만족해야 할 조건을 규정하는 규칙과 같은 파라미터를 포함하는 데이터 집합이다. 따라서, 운임은 특정 항공편의 가격 계산을 위한 기초 자료가 된다. 특정의 출발지-목적지 쌍에 대한 운임이 항공사에 의해 업데이트된다면, 이 출발지-목적지 쌍에 대하여 선행 계산되고 캐시처리된 항공편 가격이 올바르지 않을 가능성은 증가할 수 있다. 그러나, 데이터 캐시 플랫폼(2)의 관점에서 볼 때 이것은 확실하지 않은데, 왜냐하면, 선행 계산 플랫폼(3)이 캐시처리 가격을 선행 계산할 때에 실제로 적용했던 운임을 데이터 캐시 플랫폼(2)이 알지 못하기 때문이다. 예를 들어, 이전의 선행 계산시에 적용된 운임이 실제로 변경되지 않았을 수도 있어서, 가격 변경 이벤트가 가격 변경을 알려줌에도 불구하고, 이전의 적절한 운임이 계속해서 적용됨으로써 이전에 계산된 가격이 유효한 상태로 있다는 사실은 바뀌지 않을 수 있다. 또는, 이전에 적용된 운임이 실제로 변경되었지만, 그 변경으로 인해, 현재는 해당 항공편 가격의 계산에 다른 운임이 적용되어서, 결국에 실제로는 캐시처리 가격이 유효하게 유지되는 결과가 될 수도 있다.
따라서, 이러한 실시간 이벤트를 관찰하면, 데이터 캐시 플랫폼(2)은, 특정의 캐시처리된 질의 결과가 현재는 최신상태가 아닐 비결정론적 가능성을 갖고 추측을 할 수 있을 뿐이며, 캐시를 적확한 상태로 유지하기 위해서는 캐시를 재계산하는 것이 유리할 것이다. 그러나, 이것은 확실한 사실이 아니며, 각 캐시처리 질의 결과가 - 비록 최신상태가 아닐 확률은 증가하였지만 - 실제로는 여전히 적확한 상태라는 것은 무리가 아닐 것이다.
캐시처리 데이터베이스 질의 결과가 최신상태가 아닐 확률의 결정은 2단계의 논리 단계로 수행된다. 대략적으로, 첫 번째 논리 단계에서는, 확률적 예측 모델을 사용하여 확률을 찾는다. 이어서, 두 번째 논리 단계에서는 이렇게 결정된 확률을, 들어오는 실시간 이벤트에 따라 수정할 수 있다.
이러한 방식으로 결정된 확률에 기초하여, 데이터 캐시 플랫폼(2)은 재계산 명령(re-computation order)을 자동으로 생성하여, 적절한 네트워크 인터페이스(도 1 참조)를 통해 재계산 플랫폼(3)으로 이 명령을 발송한다. 일반적으로, 재계산 명령은, 최신상태가 아닐 확률이 작은 캐시처리 질의 결과가 아니라, 최신상태가 아닐 확률이 큰 캐시처리 질의 결과를 기준으로 생성된다. 이러한 일반적인 경험 규칙은 확률의 임계값을 사용하여 실현될 수 있다. 즉, 최신상태가 아닌 것으로 결정된 확률을 갖는 캐시처리 질의 결과가 이 임계값보다 클 때에 재계산을 해야 한다. 따라서 이때에는 각 재계산 명령이 발송된다. 최신상태가 아닌 것으로 결정된 확률을 갖는 캐시처리 질의 결과가 이 임계값과 같거나 그보다 작을 때에는 이 질의 결과는 여전히 적확한 것으로 간주할 수 있고 재계산을 할 필요가 없다. 따라서, 이 캐시처리 질의 결과에 대해서는 재계산 명령이 발송되지 않는다.
데이터 캐시 플랫폼(2)은 재계산 명령을 발송하기 전에 특정 시간에서의 가용 계산 용량(available computation capacity)을 고려한다. 가용 자원을 고려할 수 있도록 하기 위하여, 데이터 캐시 플랫폼(2)은 계산 플랫폼(3)의 용량 활용도 및 자유 계산 자원의 각각의 정도 및/또는 스케쥴에 대해서 알아야 할 필요가 있다. 관련 정보는 두 플랫폼 사이의 통신 링크를 통해 채워진다.
재계산 명령을 수신하면, 재계산 플랫폼(3)은 각각의 질의 결과를 재계산하여 이를 데이터 캐시 플랫폼(2)으로 제공하여서 저장시키고, 확률 모니터링 및 결정을 반복한다.
특정 실시간 이벤트에 응답하여 재계산 결정을 수정할지 또는 무효화할지 여부를 결정하기 전에 확률 모델과 실시간 이벤트의 발생 사이의 상관 관계를 고려하는 것이 바람직하다. 기본적으로, 실시간 이벤트는, 확률 모델 내에 이미 존재하는지 또는 어느 정도 존재하는지가 분석되어야 한다.
이러한, 실시간 이벤트가 확률 모델 내에 이미 존재하는지 또는 어느 정도 존재하는지의 판단, 사용되는 모델의 종류에 따라 달라진다. 예를 들어, 모델이 (위에서 간단히 설명한 것과 같이) 과학적 모델 생성 프로세스의 결과로서 얻은 개념적 모델인 경우에는, 이 모델을 생성하는 당업자는 어느 양태, 이벤트, 및 가정이 이 모델에 적합한 것으로 고려되었는지 그리고 모델 내에 통합되었는지를, 그리고 어느 양태, 이벤트, 및 가정이 이 모델에 적합성이 없는 것으로 고려되었는지 그리고 이에 따라 모델에 포함되지 않았는지 알 수 있을 것이다.
반면에, 모델이 선행 계산 데이터베이스 질의 결과의 변동성, 적확성, 및/또는 인기도의 과거의 추이 및 동향에 주로 기초하는 이력 통계 모델인 경우에는, 선행 계산 질의 결과의 변동성/적확성/인기도의 과거의 특정 거동을 어느 이벤트가 일으켰는지 처음부터 알 수 없을 것이다. 그러나, 이 경우라도 특정의 비동기성이 확률 모델에 포함되어 있는지의 여부를 근사화하는 것은 가능하다. 한 가지 방법의 예를 들면, 선행 계산된 데이터베이스 질의 이벤트의 실제 적확성을 결정(예를 들어, 그 중 대표적인 샘플을 재계산하고 캐시처리 질의 결과를 이 재계산 결과와 비교하여서)하고 이를 확률 모델이 나타내는 예측 적확성과 비교할 수 있다. 실제의 (샘플) 적확성이 예측 적확성보다 실질적으로 낮은 경우, 가령, 소정 임계값보다 아래인 경우에, 확률 모델은 특정의 비동기 실시간 이벤트를 인식하지 못하는 것으로, 즉, 이벤트가 모델 내에 기술되어 있지 않은 것으로(아니면, 이 모델이 낮은 적확성을 나타내는 것으로) 가정할 수 있다. 반면에, 실제의 (샘플) 적확성이 확률 모델에 의해 예측되는 적확성 범위 내에 있는 경우(즉, 근소하게 낮거나, 동일하거나, 심지어는 더 큰 경우)에는, 비동기 실시간 이벤트가 확률 모델에 포함된 것으로(또는, 선행 계산된 데이터베이스 질의 결과의 변동성 또는 적확성에 한정된 수준의 영향만을 미치는 무시가능한 이벤트인 것으로) 가정할 수 있다. 이 접근 방법의 보다 상세한 예는 다음에 설명한다.
모델 내에 충분히 기술되어 있는 이벤트에 있어서는, 확률 모델에 기초하여 각 캐시처리 데이터베이스 질의 결과의 확률을 결정할 때에 이벤트의 발생이 이미 고려되었기 때문에, 확률의 수정은 필요치 않다. 다른 한편으로, 실시간 이벤트가 확률 모델 내에 기술되어 있지 않은 경우에는, 이를 즉시 고려하여서 확률을 수정한다(즉, 증가시킨다). 그리고 이 수정된 확률에 따라, 각 캐시처리된 데이터베이스 질의 결과에 대한 재계산 명령을 발송할 가능성이 크다.
선택사항으로서, 확률 모델에 존재하는 실시간 이벤트가 어느 정도 발생하면 이를 누적하여 추세(경향)를 평가하는 데 사용한다. 확률 모델에 의해서 전반적으로 모델링된 실제로 발생된 실시간 이벤트들의 누적이 이 모델에 의해 고려된 수준을 넘는 일탈(burst)을 나타내게 되면, 확률은 수정되며, 또한 적용가능하다면, 재계산 명령은 적절하게 무효화된다.
선택사항으로서, 아주 적은 수의 캐시처리 질의 결과를 최신상태가 아니게 만들 수 있는 이벤트 그리고/또는 해당하지 않는 것으로 취급할 수 있는 이벤트를 필터링하기 위하여, 이벤트들을 그룹으로 누적하고 분석한다. 또한 이러한 이유로, 이벤트들을 저장하고 시간별로 취합하여, 집계 처리한다. 이러한 방식으로, 영향이 적은 이벤트에 응답하여 재계산 명령이 과하게 생성되는 것을 피할 수 있게 되고, 따라서, 계산 자원 소비의 불균형적 증가가 방지된다.
요약하면, 캐시처리 데이터베이스 질의 결과의 적확성에 최소한 소정 범위보다 크게 영향을 미칠 가능성이 있는 실시간 이벤트를 고려함으로써, 캐시 열화(degradation)에 대한 높은 반응성을 제공하게 된다.
본 캐시 업데이트 전략은, 예를 들면, EP 2521074 A1에 개시된 아마데우스사의 '대량 계산 플랫폼(MCP: massive computation platform)'과 함께 사용할 수 있다. MCP와 함께 본 데이터 캐시 플랫폼을 사용함으로써, MCP 재계산을 개시하기 위한 개선된 서브시스템을 사용가능하게 된다. MCP에 의해 생성되는 데이터베이스 질의 결과(예컨대, 여행 추천 정보)는 복제되어서 향후의 분석을 위해 데이터 캐시 플랫폼에 저장된다. 재계산 여부의 결정은, 다른 아마데우스 서비스로부터 취한 통계 데이터에 기초하여 자체적으로 구성될 수 있는 확률 모델에 기초하여 이루어진다. 또한, 항공 운임의 변경, 항공편 좌석 이용가능성의 변경, 예약 등급의 무효, 고객의 항공권 요청, 사용자에 의한 품질 피드백 이벤트, 항공편 취소, 및/또는 그 밖의 사항들과 같은 실시간 이벤트가 고려된다.
본 캐시 업데이트 방법의 한 가지 예시적인 응용분야는 프리쇼핑(pre-shopping)이다. 일반적으로, 여행 산업의 최종 사용자는 여행을 예약하기 전에, 항공 예약을 실제로 하지 않고도 현재의 항공편 가격을 포함한 서비스가능 항공편에 대한 정보를 받기를 원할 수 있다. 아주 일반적으로, 이러한 예약전 정보에 대한, 구속력없는 요청은 개방형의 개괄적인 데이터베이스 질의의 형태를 취하는바, 질의시의 컴퓨팅만 하더라도 방대한 양의 계산 자원을 필요로 할 것이다. 또한, 고객은 자신의 질의에 대한 응답으로서 요청 정보를 거의 즉각적으로 전달받을 것을 기대한다. 따라서, 저렴한 항공여행 추천 정보 등과 같은 쇼핑전 질의 결과는 일반적으로 선행 계산하고 캐시처리한다. 결론적으로, 여행 산업에서의 프리쇼핑은 본 발명에서 제안하는 캐시 업데이트 전략의 적절한 응용분야가 되는 것이다.
<상세한 설명>
이하, 보다 상세한 설명을 한다. 도 2는 일 실시예에 따른 분산 데이터베이스 시스템(1)의 개요를 나타낸다. 이하에서 설명하는 구현형태는 여행 업계의 데이터베이스에 관한 것이다. 구체적으로, 이 구현형태에서, 계산 플랫폼(3)은 항공 여행 제안에 관한 데이터를 보관하며 캐시 데이터 플랫폼(2)은 이 항공 여행 제안에 관련된 가격을 저장하고 있는데, 이 가격은 계산 플랫폼(3)이 계산 규칙(구체적으로, 항공 운임 및 그에 관련된 계산 규칙)에 기초하여 계산한다. 그러나, 이들 구현형태는 본 발명의 캐시 업데이트 전략을 보다 자세하게 설명하기 위한 목적을 위한 예시일 뿐임을 주목해야 한다. 본 발명에서 제안하는 캐시 업데이트 전략은, 데이터 및 캐시처리 결과의 구조 및/또는 의미(semantic)와 독립적으로, 모든 종류의 데이터 및 데이터베이스 질의 결과에 적용될 수 있다.
상술한 것과 같이, 분산 데이터베이스 시스템(1)의 주요 구성요소는 데이터 캐시 플랫폼(2)(이하, 간단히 DCP(2)라고 함)과 계산 플랫폼(3)이다. 도 2의 예에서, 계산 플랫폼(3)은 유럽 특허출원 11305518에 개시된 대량 계산 플랫폼(MCP)이다. DCP(2) 및 MCP(3)는, DCP(2)로부터 MCP(3)로 재계산 명령을 전송하며 이에 응답하여 다시 MCP(3)에서 DCP(2)로 선행 계산된 가격의 여행 추천정보(이하, 간단히 "가격"이라 함)를 보내주는 데 이용되는 적어도 하나의 통신 링크를 통해 연결된다.
DCP(2)에는 캐시처리된 가격의 적확성 확률의 결정을 위해 사용되는 데이터를 통합시키기 위한 추가적인 통신 인터페이스가 구비된다. 이 인터페이스는 예를 들어, 확률 모델의 기초를 구성하는 통계 데이터를 통합시키며, 항공사 또는 고객 홍보 캠페인에 의해 채워진(populate) 운임 변경 및 항공편 이용가능성 알림 등과 같은 비동기 실시간 이벤트를 수신하기 위한 통신링크를 포함한다.
또한, 분산 데이터베이스 시스템(1)은, 최종 사용자 또는 외부 고객(가령, 여행 대행사)이 질의할 수 있는 데이터를 구성하고 보관하는 애플리케이션 플랫폼(4)을 포함할 수 있다. 애플리케이션 플랫폼(4)은, MCP(3)와 애플리케이션 플랫폼(4) 사이의 각 통신 링크를 통해 MCP(3)에 의해 채워지고 업데이트된다. 이러한 채워짐 및 업데이트는 DCP(2)가 발송한 재계산 명령에 의해 개시된다.
위에서 개괄적으로 설명하고 아래에서 더 자세하게 설명하는 것과 같이, DCP(2)로부터 수신한 재계산 명령에 응답하여, MCP(3)는 여행 추천정보의 가격을 재계산하여 DCP(2)로 전달한다. 그러나 동시에, MCP(3)는 또한 애플리케이션 플랫폼(4)으로 재계산된 가격의 여행 추천 정보를 전달하여 저장하도록 한다(도 2에서는 이를 "여행 추천정보 통합"으로 표시함). 결과적으로, 애플리케이션 플랫폼(4)은 DCP(2)에 의해 실시되는 캐시 업데이트 전략에 기초하여, 사용자가 질의한 선행 계산된 가격의 여행 추천 정보를 캐시처리한다. 따라서, 본 캐시 업데이트 전략은, 예를 들어 개방형 질의에 대한 즉시 응답의 형태로, 사용자에게 혜택을 제공하는 응용에 활용된다. 이러한 구성에서, 데이터 캐시 플랫폼(2)은 애플리케이션 플랫폼(4)의 캐시의 업데이트를 제어 및 개시하도록 구성되는 제어 플랫폼의 역할을 한다. 이에 따라, 데이터 캐시 플랫폼(2)에 저장된 캐시처리된 데이터베이스 질의 결과는 실제로 사용자나 고객에 의해 액세스되거나 질의되지 않으며, 단지, 캐시 업데이트 전략의 실행의 기초가 되는 제어 데이터를 구성할 뿐이다. 그러나, 다른 구성에서는, 데이터 캐시 플랫폼(2)에 대해서 사용자 또는 고객이 직접 질의를 할 수 있다. 즉, 본 캐시 업데이트 전략을, 별도의 제어 주체를 두는 것과 반대로 한 개 또는 수 개의 애플리케이션 플랫폼(들)(4) 내에서 직접적으로 실시할 수도 있다.
애플리케이션 플랫폼(4)은, 예를 들어 프리쇼핑 애플리케이션 플랫폼, 운임 분석 애플리케이션 플랫폼, 및 기타 플랫폼을 포함한다. 프리쇼핑 애플리케이션 플랫폼에 대해서는 항공편 이용가능성 및 가격에 관한 정보를 원하는 최종 사용자가 질의한다. 예를 들어, 최종 사용자는 니스(Nice)에서 휴가철에 500 유로 이하의 가격으로 출발하는 여행 가격 제안을 살펴보기 위해 프리쇼핑 응용 프로그램에 질의를 할 수 있다. 본 캐시 업데이트 전략에 맞춰 업데이트된 프리쇼핑 어플리케이션에 캐시처리된 선행 계산된 가격의 여행 추천이 있기 때문에, 질의 발생시에 각 항공편의 가격을 계산할 필요가 없다. 오히려, 이러한 지정되지 않은 조건을 충족하는 여행 제안 목록을 프리쇼핑 애플리케이션 플랫폼에 캐시처리된 가격의 여행 추천정보에 기초하여 매우 빠르게 제공할 수 있다. 사용자는 제공받은 목록에서 자신에게 적합한 여행을 선택한 다음에 실제로 여행 예약을 하는 추가 요청을 발송할 수 있다. 두 번째 요청은 예약 엔진(도시하지 않음)에 의해 처리되어서 현재의 실제 가격을 계산하고 사용자에게 구속적인 제안을 제시한다.
이제 도 3에 도시된 데이터 캐시 플랫폼(2)의 구성에 대해 자세히 살펴보면, 데이터 캐시 플랫폼(2)은 아래와 같이 세 개의 모듈로 구성된다.
- 입력 관리자(input manager)(5)는, MCP(3)로부터의 입력(예컨대 선행 계산 데이터베이스 질의 결과), 비동기 실시간 이벤트, 그리고 확률 모델에 공급되어 업데이트시키는 통계 데이터와 같은 기타 정보를 수신한다.
- 분석기(analyzer)(6)는 확률 모델을 이용하여 후보 캐시처리 질의 결과를 업데이트할지를 결정하도록 구성된다.
- 마지막으로, 통합기(consolidator)(7)는 분석기(6)에 의해 결정된 확률을 수정하고, 필요시에는, 관측된 실시간 이벤트에 기초하여 확률 모델도 수정한다(이 후자 기능은 도 3에 나타내지 않았음).
또한, DCP(2)는 캐시처리된 가격의 여행 추천 데이터를 보관하는 내부 데이터베이스(8)를 포함한다. 여기에는, 최신상태가 아닐 확률을 평가하고 재계산 결정을 행하는 데 적합한 가격 정보의 속성(예를 들면, 출발지-목적지 쌍, 출발일, 체류 기간, 및 최종 계산 일자. 이들 모두는 MCP(3)에서 제공되는 계산 출력들임)이 보관될 뿐이다. MCP(3)가 그 계산을 하기 위해 이용하는 다른 데이터, 가령, 운임 데이터는, 캐시 업데이트 전략을 수행하는 데 필요한 것이 아니기 때문에 DCP(2)로 미러링(mirror)되지 않는다. 그러나 한편으로, DCP(2)는 (MCP(3)에 의해 제공되는 데이터 집합의 일부가 아닌) 메타데이터 속성, 예를 들어, 초기 추정 적확성(MCP(3)에 의해서만 재계산된 가격이, 예약을 위한 계산과 다를 가능성), 변동성(가격의 최종 계산 이후에 이 가격이, 예약을 위한 계산과 다를 확률의 표시), 그리고 인기도(항공편이 얼마나 자주 검색되고 예약되는지)을 이용하여 그 데이터를 보강한다. 이들 속성을 설정하는 데 필요한 데이터는, 변동성 데이터베이스(10), 초기 적확성 데이터베이스(11), 및 통계 서버(9)와 같은 외부 데이터베이스에 보관된다. 메타데이터 속성은, 캐시처리된 가격이 최신상태가 아닐 확률을 분석기(6)가 결정하면 이에 기초하여 확률 모델을 기술한다(represent)(그리고 이에 따라, 확률 모델의 특이성(specificity)에 의존한다). 이에 대해서는 이하에서 보다 상세히 설명될 것이다.
입력 관리자(5)는 모든 이질적인 정보원을 변환하도록 그리고 MCP(3)에서 제공되는 가격의 로컬 기술 데이터베이스(8)에 통합하도록 구성된다. 이는 모델링된 가격에 영향을 미칠 가능성이 있는 이벤트와 행위들을 기록한다. 이러한 이벤트에는, 고객 홍보(판촉)와 고객 불일치 피드백이 포함된다. 또한, 항공편 취소와 같은 항공편 이용가능성 이벤트는, 취소된 항공편에 직접적으로 근거하는 캐시처리된 여행 추천 정보를 무효화시키지 않을 뿐만 아니라, 취소된 항공편과 동시에 스케줄링된 동일한 출발지-목적지 쌍의 항공편과 같은 병렬 캐시처리된 데이터에 영향을 줄 수 있다. 이에, 이들 실시간 이벤트는 통합기(7)로 전달되어서, 최신상태가 아닐 확률 및 재계산 결정을 수정하기 위해 추가적으로 처리된다.
가격이 정해진 여행 추천정보를 캐시처리하는 데 관여되는 정보의 양 때문에, 인코딩 기술을 사용하는 것이 유리하다. 이에 의하여, 저장장치 자원에 대한 비용을 크게 절감하면서, DCP(2)에서 캐시처리된 가격 데이터는 MCP(3)에 보관된 기본 데이터 영역으로 전체적으로 매핑된다. 확률적 인코딩은, 예를 들어, 블룸 필터(Bloom Filter)를 사용하여 구현된다. 이러한 인코딩의 효과는 두 가지이다. 첫째, 블룸 필터는 보수적이다. 블룸 필터는, 예를 들어 운임 변경을 나타내는 실시간 이벤트에 의해 영향을 받을 가능성이 큰 가격에 대해서는 적어도 그리고 어떤 경우든 적극적으로 추적할 수 있도록 해 주지만, 그 반대가 잘못된 것은 아니다. 영향받지 않는 것으로 간주되는 가격은 실제로 영향을 받지 않는다. 따라서 그러한 운임 변경 이벤트에 의해 잠재적으로 영향을 받는 가격을 인식하는 데 실패할 위험이 없다. 둘째, 잘못된 적극적 표시의 양(the amount of false positive indications)은 블룸 필터의 배정된 크기에 엄격하게 의존하기 때문에 필요에 따라서 그 발생을 제한할 수 있다.
두 번째 모듈인 분석기(6)는, DCP(2)에 보관된 선행 계산된 가격의 적확성의 확률적 열화 모델에 기초하여, 캐시처리된 가격의 여행 추천정보가 최신상태가 아닐지의 확률을 우선적으로 일반적인 수준으로 결정한다. 분석기는, 전술한 것과 같이 입력 관리자(5)에 의해서 가격에 부가된 메타데이터를 조사하고 평가한다. 따라서이 메타데이터로써 기술(represent)되는 확률 모델은 변동성 데이터베이스(10)에 의해 포함된 가격 변동성, 초기 적확성 데이터베이스(11)로부터 통합된 가격의 초기 적확성, 그리고 통계 서버(9)로부터의 인기도 리포트로써 제공되는 항공편 추천정보의 인기도에 관한 척도를 포함한다. 분석기는 캐시처리된 가격에 관한 확률 및 우선권 정보, 즉, 통계 확률적 정보만에 기초하여(즉, 이벤트를 전혀 고려하지 않고) 우선권에 의해 어느 가격을 재계산해야 할지의 표시를 통합기(7)로 출력한다.
- 선행 계산된 질의 결과가 소정 시간 후에 변하지 않고 유지되는 확률의 추정치 를 얻기 위하여 변동성 를 채택할 수 있다. 이 확률 추정치는 또한 기대 적확성 확률 라고 부르며, 보다 일반화하면, 선행 계산 데이터베이스 질의 결과가 최신상태가 아닐 확률이라고 부른다. 이러한 적확성 확률이 시간에 따라 감소하는 두 가지 예시적인 함수에 대해서 도 4a에 도시하였다.
- 초기 적확성: MCP(3)에 의해 생성된 선행 계산된 데이터베이스 질의 결과는, MCP(3) 자체의 계산이 캐시처리된(따라서 최신상태가 아닌) 데이터에 기반한 경우에는 계산 시점에서조차도 반드시 적확하지 않을 수 있다. 이로써, MCP(3)에 의해 계산된 선행 계산 데이터베이스 질의 결과와, 적확한 기본 데이터에 의해 가설적으로 생성된 계산 결과 사이에 추가적인 불일치가 발생하게 된다. 이러한 불일치는 각각의 피드백이 가능한 경우에 측정가능하다. 예를 들어, 선행 계산된 데이터베이스 질의 결과 가 MCP(3)에 의한 계산시에 적확할 확률 를 갖는다는 것을 이전 계산으로부터 추측할 수 있다. 이것은 선행 계산된 데이터베이스 질의 결과가 소정의 시간 t 이후에 적확할 확률이 라는 것을 의미한다.
- 이 모델에 따라 DCP(2)에 보관되는 전체의 선행 계산된 데이터베이스 질의 결과의 적확성은 다음과 같은 평균 적확성으로 간주할 수 있다.
- 선행 계산된 데이터베이스 질의 결과의 인기도 : 이것은 최종 사용자가 선행 계산된 데이터베이스 질의 결과에 액세스하는 평균 빈도이다. 또한 아래에서 간단히 설명할 것과 같이 같이, 사용자가 자주 요청하는 선행 계산 데이터베이스 질의 결과의 적확성을 더 높이는 것이 바람직할 수 있다. 따라서, 사용자가 볼 때의 전체 캐시의 적확성은 또한, 각 적확성 값을 인기도로 가중처리하여서 정의할 수도 있다. 따라서, 적확한 선행 계산 데이터베이스 질의 결과의 예상 비율에 대조적으로, 선행 계산 데이터베이스 질의 결과에 대한 적확한 액세스의 비율은
예를 들어서 확률적 적확성 모델에 관한 상기 파라미터들은 수 일, 수 주, 또는 수 개월의 이력을 기준으로 통계 서버(9)로부터 도출된 통계적 이력 데이터에 따라 설정된다. 모든 개별적인 선행 계산 데이터베이스 질의 결과는, 선행 계산된 데이터베이스 질의 결과 상태를 예측하고 이에 따라 전체 캐시의 품질을 예측하기 위하여 상기 파라미터들로써 모델링된다.
우선순위를 정하기 위하여 그리고 어느 가격을 다음 번에 재계산할지를 결정하기 위하여 확률 모델의 정보를 이용하는 여러 가지 방법들이 있다. 분석기(6)는 상황에 따라(예를 들어, 데이터 양에 따라, 가용한 계산 자원에 따라, 캐시를 최적화해야 하는 방법의 목적에 따라, MCP(3) 내의 기본 여행 데이터를 소유하는 고객과의 협의에 의거하여서) 해당 전략 또는 전략의 혼합을 적용하도록 구성된다. 다음과 같은 전략이 적용될 수 있다.
ㆍ가격의 적확성: 이것은 데이터 영역의 전체적 적확성을 최대화하는 것을 목적으로 한다. 아마도 부적확한 가격이 가장 먼저 재계산될 것이다.
ㆍ가격의 적확성을 그 인기도에 의해 가중처리: 부적확할 가능성이 큰 가격들 중에서는, 인기가 더 많은 가격이 인기가 적은 가격보다 더 높은 우선 순위로 재계산될 것이다.
ㆍ가격의 적확성을 그 인기도 및 연령(오래된 정도)에 의해 가중처리: 앞의 전략과 유사하지만, 최종 재계산 시간도 또한 고려한다. 이 전략은, 특히, 전반적으로 재계산해야 할 가격들의 양에 비해서 재계산 자원이 한정되어 있는 상황에서, 매우 변동성이 큰 가격에 의한 재계산의 고갈을 방지한다.
ㆍ인기있는 출발지-목적지 쌍을 지리적 위치와 상기 재계산 시간에 기초하여 변조(modulate): 이 전략에서는, 어느 출발지-목적지 쌍의 항공편이 하루 중의 특정 시간에 더 자주 질의되는지의 통계를 추가로 고려한다. 그 효과로서, 특정 출발지-목적지 쌍의 항공편이 거의 액세스되지 않는 시간에 재계산이 빈번하게 이루어지는 것이 회피된다(왜냐하면, 각 질의가 실제로 거의 발생하지 않는 한, 부적확한 캐시처리 데이터는 해가 되지 않기 때문이다).
부차적 효과로서, 분석기(6)는 MCP(3)로부터 수신되어 DCP(2)로 통합된 최근 재계산된 가격에 기초하여 변동성 모델 데이터베이스(10)를 업데이트한다. 분석기는 반복되는 재계산을 기초로 하여 캐시처리 가격의 실제 변동성을 추적할 수 있으므로, 이러한 통계 정보를 변동성 모델 데이터베이스(10)에 공급할 수 있다. 변동성 모델을 업데이트하기 위해서, 분석기(6)는 새롭게 계산된 결과와 이전에 수신 된 가격 간의 차이 수를 카운트한다. 이 차이로부터, 분석된 가격의 각 부분에 대한 변동성 파라미터를 업데이트한다.
마찬가지로, 분석기(6)는 이와 동일한 방식으로 초기 적확성 데이터베이스(11)를 업데이트할 수 있다. 분석기는 또한, 예를 들어 새로운 출발지-목적지 쌍으로부터의 가격이 최초로 DCP(2)에 통합되는 경우에 다른 인기도 리포트를 요청할 수 있다.
가격의 변동성, 적확성, 및 인기도의 각각에 대한 이력 및 통계 자료가 없는 경우에, 분석기(6)는 가능한 한 보수적으로 기본 파라미터를 써서 그 프로세스를 수행한다.
이제 세 번째 모듈에 대해서 살펴보면, 통합기(7)는 들어오는 실시간 이벤트를 고려하여 확률 결정의 두 번째 단계를 수행한다. 또한, 통합기는 재계산 명령을 생성하여 MCP(3)로 발송하는 주체이다. 이는 그 결정을 위한 기반으로서 분석기(6)의 출력들을 취한다. 이들은 데이터 영역의 모든 가격에 대한 재계산의 우선 순위의 제1 추정치를 제공한다. 그리고 나서, 재계산 우선 순위를 수정하기 위하여 실시간 이벤트의 다양한 소스로부터 수집된 모든 정보를 중첩한다. 이 결과, 개선된 재계산 우선순위가 얻어진다.
선택사항으로서, 통합기는, 예를 들어 "모든 가격은 적어도 매주 한 번 재계산됨을 보장함"과 같은 고객 서비스 차원의 계약을 고려할 수 있고, 이에 따라 우선 순위를 수정할 수 있다. 가장 높은 우선 순위를 가진 내부 가격 데이터 기술(price data representation)(8)에서 해당 항목을 선택하고, 이들을 재계산할 것으로 마킹한다. 통합기는 MCP(3)에서 사용가능한 계산 자원을 알고 있기 때문에, 특정 시간 간격 동안에 MCP(3)에 의해 재계산될 수 있는 수 만큼의 캐시처리 가격을 책정할 수 있다. 그런 다음 통합기는 생성된 재계산 명령을 MCP(3)로 전송한다.
실시간 이벤트로부터의 정보는 엄격한 통계 모델링에 대해서 캐시처리된 데이터의 적확성을 개선하기 위한 수단이다. 이는 단지 예측된 것 대신에 실제로 일어나는 것을 추적하는 데 사용할 수 있다. 이는 통계 모델의 예측을 제어하고 이 예측이 잘못되거나 부적절한 것으로 판명된 경우 이를 수정하기 위한 수단이다. 실시간 이벤트의 여러 등급을 본 실시 형태와 관련하여 고찰할 수 있다.
행위자의 이벤트는 일반적으로(즉, 때때로) 선택적으로 발생하지만, 재계산 결정에 강력한 영향을 줄 수 있다. 외부 고객은 캐시와 자신의 플랫폼에서 경험하는 쇼핑 간의 불일치에 대한 피드백을 제공할 수 있다. 이 피드백은 통계 모델에 의해 예측되는 적확성을 수정하는 데 사용될 수 있고, 필요시에 신속한 재계산을 할 수 있도록 한다. MCP(3)에 저장된 데이터의 제공자(예컨대, 여행 프로그램을 제공하는 여행 공급자)가 특정 출발지-목적지 쌍의 항공편을 홍보하는 캠페인을 하는 경우, 이들의 가격은 보다 더 변동성이 있으며 보다 더 최신상태가 아닐 것으로 가정할 수 있다. 따라서, 홍보 캠페인 동안의 가격의 재계산 빈도수는 늘어나야 할 것이다. 다른 예로서, MCP(3)에 대한 유지 보수 작업(3)이 때때로 필요하게 될 수 있으며, 시스템 내에서 운용상의 문제를 겪게 될 수 있다. 이러한 경우, DCP(2)는, 유지 보수가 완료될 때까지 그리고 운용상의 문제가 회복될 때까지 재계산 명령을 생성하지 않거나 덜 생성하도록 지시를 받을 수 있다.
이용가능성 이벤트는 캐시처리된 항공편의 적확성에 관한 실시간 상태를 나타낸다. 이 이벤트의 표명에 따라, MCP(3)의 기본 데이터 영역의 특정 가격이 변경되었으며 따라서 DCP(2)에 의해 캐시처리된 가격은 유효하지 않게 되었음을 확실하게 알 수 있게 된다. 그러나 다른 가격들도 영향을 받을 수 있는데, 여기서 그 효과는 불확실하며, 그에 따라, 이들 가격이 최신상태가 아닐 확률이 증가될 수 있다. 예를 들어, "등급 폐쇄" 이벤트는 특정 항공편에서의 특정의 예약 등급이 만료되었음을 나타낸다. 이 항공편의 좌석과 등급은 더 이상 예약이 가능하지 않으며, 따라서 DCP(2)에 의해 캐시처리되는 각각의 가격은 확실하게 유효하지 않게 되었다. 그러나 이것이 나타내는 것은, 이 항공편 직전에 또는 직후에 출발하는 동일한 항공편의 다른 등급 및/또는 다른 항공편의 동일한 등급이 보다 더 많이 변동될 수 있다는 것이다. 따라서, 이들이 최신상태가 아니게 될 확률이 증가할 수 있으며, 이러한 가격에 대한 재계산은 유익할 수 있을 것이다. 또 다른 예로서, 저가 항공사는 항공편 점유율에 따라 그 좌석 가격을 설정하는 경우가 있다. 점유율 변경의 통지가 있으면, 각 캐시처리된 가격은 신속하게 재계산될 수 있으며, 따라서 캐시 적확성이 개선/회복된다.
운임 변경 이벤트의 영향은 예측하기 어렵다. 간단하게 말해서, 운임에는 특정 항공편의 가격을 계산하는 데 사용되는 규칙과 같은 정보 및 로직이 포함된다. 따라서 특정 항공편의 실제 가격을 계산할 때에는, 운임의 집합을 액세스하여서 어느 운임이 적절하며 실제적으로 적용할지를 결정하고, 최종적으로 가격을 산출한다. 따라서 "항공편→운임(들)"의 관계가 있다(그러나, 이 관계는, 특정 항공편에 어느 운임을 적용할지의 조건이 변할 수 있기 때문에, 시간이 지남에 따라 변경될 수 있다). 그러나 다른 방향의 관계, 즉, "운임→항공편"은 일반적으로 추적되지 않는다. 즉, 어느 항공편에 어느 운임이 적용되는지는 명확하지 않다. 또한, 운임의 변경은 기본 데이터 영역으로부터 계산되는 매우 많은 수의 가격에 잠재적으로 영향을 준다.
운임 이벤트의 영향을 판단하기 위해, MCP(3)와 DCP(2) 사이의 통신을 이용하여, 가격 계산을 위해 MCP(3)에 의해 적용되는 운임에 대한 매핑을 DCP(2)에 제공할 수 있다. 재계산 명령에 따라 가격을 계산할 때, MCP(3)는 요청받은 가격을 계산하기 위해 액세스된 모든 운임을 기록한다. 그 다음에 이 정보는 운임↔항공의 전역 매핑(global mapping)에 저장되며, MCP(3)에 의한 모든 계산 중에 보관된다. 운임 변경 이벤트가 수신되면, 입력 관리자(5)는, 운임 변경 이벤트에 의해 영향을 받는 항공편들을 결정하기 위해서 이 전역 매핑을 검색하고 이 항공편들에 "업데이트됨"이라고 표시한다. 간략하게 위에서 설명한 것처럼, 운임 변경이 반드시 추천 여행의 가격의 변경을 의미하는 것은 아님을 주목해야 한다.
통합기(7)는 기본 확률 모델과 이벤트의 관계를 고려하지 않고, 캐시처리된 여행 추천정보의 재계산을 시작하는 대신에 실시간 이벤트가 캐시처리 가격에 주는 잠재적 영향을 먼저 평가한다. 이러한 이벤트들은 확률 모델 내의 그 기술에 관하여 먼저 분석된다.
위에서 설명한 것과 같이, 이러한 분석의 특이성은 사용된 확률 모델의 종류에 의존한다. 개념적 모델의 경우에, 어느 이벤트가 확률 모델에서 고려되었는지를 모델 생성 프로세스를 통해 알게 된다. 따라서, 들어오는 이벤트를, 특정 이벤트가 모델 내에 존재하는지 여부를 판단하기 위하여 모델 생성 프로세스로부터 알게 된 확률 모델의 특성에 대해서 체크한다.
한편, 이력 통계 모델이 사용될 수 있는데, 따라서, 어느 이벤트가 모델의 이력 및 통계 데이터 단위를 도출하였는지를 연역적으로 알 수 없다. 이 경우에는, 특정 이벤트가 확률 모델 내에 기술되어 있는지 여부를 판단하기 위해서 아래와 같은 접근 방식을 취할 수 있다(완전성을 위해서, 이하의 접근 방식은 확률 모델의 특정 유형에 한정되지 않으며, 예컨대 개념적 모델에도 사용할 수 있다).
모든 캐시처리된 선행 계산 데이터베이스 질의 결과에 의해 형성되는 데이터 영역의 크기에 따라, 캐시처리 데이터베이스 질의 결과는 작은 부분들(이를 이하에서는 "분담부분(share)"이라 칭하기로 함)로 분할된다. 여행 추천정보의 가격을 결정하는 선행 계산된 데이터베이스 질의 결과의 예에서, 이 분담부분은, 예를 들어 출발지-목적지 쌍으로 구성된다. 즉, 하나의 분담부분에는, 동일한 출발지와 목적지 위치를 갖는 모든 선행 계산된 가격의 여행 추천정보가 포함된다. 또는 이와 달리, 데이터 영역이 한정된 크기에 불과한 경우에는 더 세분되지 않는다. 즉, 이 경우에는, DCP(2)에 보관된 모든 선행 계산 데이터베이스 질의 결과를 커버하는 하나의 분담부분만 있다.
비동기 실시간 이벤트가 검출된 후, 이 이벤트에 의해 영향을 받을 잠재성이 있는 하나 또는 그 이상의 분담부분, 즉, 감지된 이벤트로 인하여 최신상태가 아닐 확률이 증가될 수 있는 선행 계산된 데이터베이스 질의 결과를 포함하는 분담부분이 식별된다. 적어도 하나의 분담부분의 실제 적확성은, 예를 들어, 분담부분 내의 선행 계산된 데이터베이스 질의 결과의 특정 샘플 또는 임의 샘플을 재계산하여 그 적확성을 추정함으로써 결정된다. 예를 들어, 분담부분이 10,000개의 선행 계산된 데이터베이스 질의 결과를 포함한다면, 선행 계산된 데이터베이스 질의 결과에서 20개의 샘플이 재계산된다. 이 재계산은 다른 재계산과 유사하게 수행된다. DCP(2)는 재계산 명령을 생성하여 MCP(3)에 발송한다. MCP(3)는 재계산을 수행하고 그 결과, 즉, 선행 계산된 데이터베이스 질의 결과의 업데이트된 샘플을 DCP(2)로 돌려준다. DCP(2)는 샘플 재계산의 결과를, 이전에 캐시처리된 해당 데이터베이스 질의 결과와 비교하고, 예를 들어, 변경된(즉, 최신상태가 아니게 되었거나 부적확해진) 샘플 선행 계산 데이터베이스 질의 결과의 백분율 그리고/또는 변경되지 않은(즉, 최신상태이고 계속해서 적확한) 샘플 선행 계산 데이터베이스 질의 결과의 백분율을 결정한다. 샘플 선행 계산 데이터베이스 질의 결과의 이들 백분율은 전체 분담부분의 적확성의 추정치로서 전체 분담부분으로 전달될 수 있다. 즉, 이들 샘플 백분율로부터, 전체 분담부분이 샘플과 거의 적확(부적확)하다는 것으로 전반적으로 추단할 수 있다.
다음 단계에서, 분담부분의 결정된 실제 적확성을, 확률 모델에 의해 예측된 분담부분의 적확성과 비교한다. 이 비교 결과에 따라, 특정 비동기 실시간 이벤트가 확률 모델 내에 기술되어 있는지 그리고 가능한 경우에 어느 정도인지를 추단한다. 결정된 실제 적확성이 확률 모델에 의해 예측된 적확성보다 소정 범위를 넘어 더 아래에 있는 경우, 즉, 샘플 적확성이 모델에 의해 예측된 적확성보다 실질적으로 낮은 경우, 이벤트는 확률 모델 내에 포함되지 않는 것으로 간주한다. 반면에, 결정된 실제 적확성이 확률 모델에 의해 예측된 적확성보다 소정 범위 내에서 아래에 있는 경우, 또는 두 적확성이 동일하거나 또는 결정된 실제 적확성이 예측 적확성보다 훨씬 더 높은 경우, 이벤트는 확률 모델 내에 기술되어 있는 것으로 간주한다. 두 적확성 간의 차이는 또한, 이벤트가 모델 내에 통합되어 있는 정도를 나타낸다.
처음 장소에서 발생된 비동기 실시간 이벤트를 검출하는 방식으로서 샘플링 자체를 인식할 수 있음에 주목해야 한다. 특정 항공편이 취소되었다는 항공사의 표시 또는 판촉(홍보) 캠페인의 표시와 같은 비동기 실시간 이벤트의 명시적인 표시에 덧붙여 또는 이에 대한 대안으로서, 샘플링은, 제3자가 명시적으로 표시하지 않은 비동기 실시간 이벤트를 절대적으로(implicitly) 검출하는 데 이용할 수 있다. 이를 위해, 모든 분담부분에 걸쳐서의 연속적인 또는 정기적인 샘플 처리를 채택함으로써 선행 계산 데이터베이스 질의 결과의 모든 분담부분의 실제 적확성을 추정한다. 이는, 결정된 실제 적확성과 확률 모델에 의해 예측된 적확성의 비교에 의해서 전자가 후자보다 실질적으로 낮다고 결정된 경우에 확률 모델 내에 반영되지 않은 이벤트를 절대적으로 검출할 수 있도록 한다.
검출된 이벤트에 의해 영향을 받을 잠재성이 있는 하나 이상의 분담부분의 식별은 이벤트의 특성과 이벤트에 관한 지식에 의존한다는 점을 더욱 유의해야 한다. 예를 들어, 이벤트가 순환적 샘플링 처리에 의해 절대적으로 검출된 경우, 잠재적으로 영향을 받는 분담부분은 동시에 결정된 것이다(즉, 실제 적확성을 결정한 해당 분담부분은 예측된 적확성보다 훨씬 낮다). 한편, 이벤트의 명시적인 시그널링(표시)에는 또한, 잠재적으로 영향을 받는 선행 계산 데이터베이스 질의 결과의 표시가 포함될 수 있다. 예를 들어, 항공사가 특정 항공편의 취소를 시그널링하였다면, 취소된 항공편의 이전 및 이후 시간 동안의 동일한 출발지와 목적지 사이의 항공편 가격은 잠재적으로 영향을 받는 것으로 고려해볼 수 있다. 또한, 어느 (명시적으로 시그널링된) 이벤트가 어느 선행 계산 데이터베이스 질의 결과의 적확성에 영향을 미치는지를 과거의 경험으로부터 알 수 있다. 예를 들어, 어느 실시간 및 실제상황 이벤트가 연속 샘플링 처리에 의해 검출된 분담부분의 감소된 적확성에 원인이 되었는지를 재추적하고 이러한 방식으로 특정 비동기 실시간 이벤트의 통상적인 영향에 대한 지식을 얻는 것이 가능하다.
분담부분의 실제 적확성을 추정하는 상기 분석 및 이를 확률 모델에 의해 예측된 적확성과 비교하는 것에 대해서 더욱 더 상세하게 그리고 보다 더 정형적으로 설명한다.
하나의 선행 계산된 데이터베이스 질의 결과 의 실제 적확성을 로 칭한다. 선행 계산된 데이터베이스 질의 결과 는 특정 시점에서 적확하거나(=1, 즉, 그 재계산 결과와 동일함) 또는 부적확하다(=0, 즉, 그 재계산 결과와 다름). 모든 선행 계산된 데이터베이스 질의 결과들의 집합은 분담부분 로 논리상 분할될 수 있다. 이하의 고려 사항은 하나의 구체적인 예시 분담부분 에 관한 것이다. 확률 모델에 의해 예측되는, 분담부분 에 포함된 선행 계산된 데이터베이스 질의 결과의 평균 적확성을 로 표시한다. 한편, 에 있는 실제로 적확한 선행 계산된 데이터베이스 질의 결과의 비율을 라 칭한다.
위에 설명한 것과 같이, 를 결정 또는 추정하기 위해, 에 있는 N개의 선행 계산 데이터베이스 질의 결과의 샘플 재계산을 행한다. N 중에 있는 적확한 결과의 수를 이라고 칭한다. 즉, N개의 샘플 선행 계산 데이터베이스 질의 결과를 재계산한 후에, 개의 재계산된 데이터베이스 질의 결과는 그 이전에 캐시처리된 것과 동일한 반면에, 개의 재계산된 데이터베이스 질의 결과는 이전에 캐시처리된 것과 다르며 따라서 부적확한 것으로 밝혀졌다.
이는 이항법(Binomial law) 를 사용함으로써 내의 샘플 N개의 선행 계산 데이터베이스 질의 결과에 대해서 일반화할 수 있다. 따라서, N개 샘플들 중의 K개의 선행 계산된 데이터베이스 질의 결과가 적확한 것일 확률은 아래 식과 같다.
따라서, 관계식 은 분담부분 의 실제 적확성의 추정치 이다. 이는, N개의 샘플 선행 계산 데이터베이스 질의 결과 샘플 재계산의 결과로써 전달된다. 한편, 는 확률 모델에 의해 주어진 의 적확성 추정치이다.
특정 실시간 이벤트가 확률 모델에 존재하는지의 여부를 판단하기 위해, 또는 가, 이들 두 값이 서로 다른 경우에서처럼(구체적으로, ≪인 경우에서처럼) 에 대한 보다 더 신뢰성있는 근사치인지를 결정할 필요가 있다. 이러한 결정을 준비하는 데 있어서, 두 가지 가설 와 을 규정할 수 있다. 이들은 다음과 같다.
: 확률 모델의 예측치는 분담부분 의 적확성을 적절하게 나타낸다. 즉, 이다. 샘플링 처리로 인한 통계적 편차에 의해 는 보다 작다(즉, 뜻하지 않게, 선택된 N개의 선행 계산 데이터베이스 질의 결과는 내의 모든 선행 계산 데이터베이스 질의 결과의 평균보다 더 부적확하다. 따라서 N개의 샘플은 를 대표성있게 반영하지 못한다).
: 확률 모델에 의해서 예측되지 않은 무언가가 발생한다. 따라서 는 의 부적절한 추정치가 된다. 오히려, 샘플 재계산에 의해서 달성되는 실제 적확성 추정치가 사용가능한 최선의 추정치가 된다. 즉, 이다.
실제의 적확성이 소정 범위보다 많이 예측 적확성보다 낮다면, 확률 모델에 의해 예측되는 적확성이 부적절할 가능성이 증가하여서 이를 줄여할 할 필요가 있다. 이는, 예를 들어 가 85%의 적확성 를 표시하는 반면에, 샘플 재계산에 의해 수신된 실제 적확성이 내에 단 20%의 적확한 선행 계산 데이터베이스 질의 결과가 있음을 나타낼 뿐인 경우이다. 이 경우에는 가 올바른 결정이다. 그러나 샘플링에 의해 수신된 실제 적확성과 모델에 의해 예측된 적확성이 유사하다면, 즉, 두 가지 표시 간의 차이가 비교적 작으면, 확률 모델에 의해 예측되는 적확성은 거의 확실하게 적절한 것일 것이다. 예를 들자면, 이는, 가 85%의 적확성 를 표시하고 이 80% 적확성인 때의 경우일 수 있다. 이 경우에는 이 올바른 결정이다.
>이면, 확률 모델 에 의해 예측되는 적확성은 의 적정한 근사치로 간주되어 가 선택된다. ≤이면, 확률 모델 에 의해 예측되는 적확성이 의 적정한 근사치로 간주되지 않아 이 선택된다.
를 적절한 값으로 설정하기 위하여, 확률 모델의 품질에 관한 정보를 갖는 것이 유리하다. 이러한 정보는 일반적으로, 모델을 설치하기 전에 실행되었거나/그리고 그 사용 중에 실행되는 모델 검증 프로세스로부터 입수가능하다. 예를 들어, 확률 모델의 1년 동안의 사용 중에, 확률 모델에 의해 반영되지 않은 비동기 실시간 이벤트가 365일 중 드물게 예를 들어 3일만 발생하는 것으로 관측되었을 수 있다. 이 경우에, 는 99%의 시간에 대해서는 적절하고(즉, ), 1%의 시간에 대해서는 부적절(즉, )하다고 가정할 수 있다. 또 다른 예에서, 확률 모델에 포함되지 않은 비동기 실시간 이벤트는, 예를 들어 1년 중 180일처럼, 비교적 자주 발생할 수 있다. 따라서, 는 매 두 번째 경우에만 적절하다고 가정할 수 있다. 즉, 50%의 시간까지는 적절하고(즉, ), 나머지는 부적절하다(즉, ).
확률 모델의 과거 품질/신뢰성을 고려하여 를 설정하는 한 가지 예시적인 방법은, 잘못된 결정 의 확률을 고려하는 것, 즉, 를 실제와 달리 의 적절한 추정치로 간주하지 않는 것이다. 확률 모델의 예측이 적확한지의 확률은 다음과 같이 표현될 수 있다.
위 수학식을 통해 확률 모델의 과거 신뢰도에 따라 를 선택하고 를 정의할 수 있다. 예를 들어, 확률 모델이 99%의 시간에 대해 적확하면 는 0.01로 설정된다. 그리고 의 임계값을 위 수학식을 사용하여 계산할 수 있다. 적확한 샘플 재계산 결과의 수 가 보다 낮다면, 즉, 샘플 재계산에 의해 결정되는 실제 적확성 추정치 는 보다 더 신뢰성있는 의 추정치로 간주된다.
분담부분 의 실제 적확성을 추정하기 위한 샘플 재계산의 수 N | N=10 |
N=20 |
N=50 |
N=100 |
=0.85인 확률 모델에 의해 적확하다고 예측된 N개의 샘플 선행 계산 데이터베이스 질의 결과의 수 K | K=8 |
K=17 |
K=42 |
K=85 |
임계값 (=0.01) | 6 | 14 | 36 | 76 |
확률 모델(=0.01 및 상응한 ) 내에서 이벤트가 기술되어 있다고 간주되지 않는 (적확한 샘플 재계산)의 범위 | ≤5 |
≤13 |
≤35 |
≤75 |
따라서, 요약하자면, 이 와 같거나 이보다 큰 경우에는, 비동기 실시간 이벤트는 확률 모델 내에 기술되어 있는 것으로 간주되며, 각 선행 계산 데이터베이스 질의 결과의 확률의 수정은 전혀 필요없다. 그러나 이 보다 작은 경우에는 이벤트가 확률 모델 내에 기술되지 않은 것으로 간주된다.
예측가능하지 않은, 따라서 확률 모델에 전혀 포함되어 있지 않은 이벤트, 예를 들어, 홍보 캠페인 또는 유지 관리 이벤트에 있어서, 이들 이벤트는 가능한 한 신속히 처리된다. 일반적으로, 이는, 특히 특정의 실시간 이벤트에 의해 잠재적으로 영향을 받는 해당 선행 계산 데이터베이스 질의 결과의 확률이 수정된다는 것, 구체적으로는 감소된다는 것을 의미한다. 이벤트가 확률 모델 내에 존재하는지 여부를 결정하는 상기 예를 계속 살펴보면, 이러한 수정 처리는 선택적으로, 샘플 재계산에 의해 얻은 에 대한 추정치, 즉, 을, 최신상태가 아닌 분담부분 내의 선행 계산된 데이터베이스 질의 결과의 확률에 적용함으로써 수행된다. 이 보다 예를 들어 25% 더 낮은 것으로 판명된 경우, 분담부분 내의 선행 계산된 데이터베이스 질의 결과에 대한 확률 모델의 현재의 적확성 예측치는 예를 들어 25% 감소된다. 이러한 예시적 수정에 대해서 도 4b에 나타내었다(도 4b의 x 축과 y 축은 도 4a에 나타낸 것과 동일한 의미를 갖는다. 즉, x 축은 최종 재계산 이후의 시간(= 연령 t)을 시간 단위로 나타낸 것이고, y 축은 적확한 상태일 확률/최신상태가 아닐 확률을 나타낸다).
이러한 수정이 완료된 후, 어느 선행 계산 데이터베이스 질의 결과를 재계산해야 할지의 결정을 평상시와 같이, 즉, 확률에 대한 어떠한 수정도 없었던 경우와 동일한 방식으로 행한다. 위에서 설명한 예시적인 이력 통계 모델을 다시 참조하면, 확률 모델에 의해서 언명된 적확한 상태일 확률/최신상태가 아닐 확률은 이다. 그러나 이는, 인식된 비동기 실시간 이벤트에 응답하여 예컨대 위에서 상세히 설명한 전략을 적용함으로써 수정될 수 있기 때문에, 실제로는 단계별로 순차적으로 계산될 수 있다. 즉, 시간 에서, 확률적인 적확한 상태/최신상태가 아닌 상태 는 시간 에서의 그 이전 값으로부터 아래 식과 같이 계산된다.
그 다음, 분석기(6)에 의한 적확성 계산은 (실시간 이벤트에 응답하여 수정되었을 가능성이 있는) 이전 값부터 다시 시작한다.
들어오는(incoming) 비동기 실시간 이벤트에 응답하여 이루어지는 확률, 즉, 확률 모델에 의해 예측되는 적확성의 수정은, 각각의 선행 계산된 데이터베이스 질의 결과가 다음 번에 MCP(3)에 의해 재계산된 후에 리셋된다.
선택사항으로서, 운임 또는 이용가능성의 변경과 같이 적어도 특정의 정도로 확률 모델 내에 기술되는 이벤트를 누적하여서, 그 외양(appearance)을 확률 모델의 예측치와 정기적으로 비교한다. 이벤트의 피크가 모델과 국지적으로 일치하지 않는 경우에, 즉, 이벤트의 버스트(burst)가 확률 모델의 기초가 되는 통계자료에 현저하게 바깥에 있는 경우에, 영향받은 가격들을 가능한 한 빨리 재계산하기 위하여 최신상태가 아닐 가능성이 있는 것으로 마킹한다. 이로써, 확률 모델 내에 이미 존재하는 그리고 이에 따라, 사전에 분석기(6)에 의해 수행된 결정에 의해 이미 고려된 이벤트에 의한 "노이즈"가 필터링(제거)된다.
선택사항으로서, 들어오는 비동기 실시간 이벤트의 처리는 통합기(7)와 기능적으로 분리된 구성요소, 또는 통합기(7) 내의 하위 구성요소인 이벤트 관리 모듈에 의해 수행된다. 입력 관리자(5)에 의해 수신된 이벤트는 통합되지 않고 내부 데이터 저장소에 먼저 저장된다. 이벤트 관리자는 모든 들어오는 비동기 실시간 이벤트를 수신하고, 예를 들어, 상기에서 상세하게 기술한 전략을 적용하여서 이벤트를 처리하고, 영향받는 선행 계산 데이터베이스 질의 결과가 최신상태가 아닐/적확하지 않을 확률의 수정을 행한다. 선택사항으로서, 상술한 전략은, 특정 이벤트가 이벤트 관리자에 의해 인식되었을 경우에만 적용되며, 상기 전략을 적용하고, 그 때에만 적절하게 각 선행 계산 데이터베이스 질의 결과가 적확한 상태일 가능성을 수정한다(필요시에).
선택사항으로서, 최적화를 위해, 통합기(7)는 내부 데이터 기술(8)의 격자 보기(grid-view)를 작동한다. 즉, 분리된 방식으로 가격들의 집합에 대해서 작동하는 대신에 그 알고리즘 실행 중에 인접한 가격들의 그룹을 고려한다. 이 방법에서는, 인접한 가격 데이터 집합들을 통합된(aggregated) 속성의 값을 갖는 하나의 데이터 집합으로 볼 수 있다. 통합된 데이터 집합에 대한 작동은 드문드문한(sparse) 재계산 명령의 생성을 제한하고, 따라서, MCP(3)에서의 상호화(mutualization) 및 최적화의 기회를 증대시킨다. 이에 계산 비용을 절감할 수 있다.
도 5는 전술한 상세한 설명을 요약하면서 본 발명의 캐시 업데이트 방법의 개요를 나타내는 것이다.
선행 계산된 데이터베이스 질의의 캐시를 최신상태로 유지하는 프로세스는, 캐시처리된 질의 결과가 부적확할 확률을 판단하는 것(14)으로부터 시작한다. 이 판단은, 두 가지 논리 단계에 위치한 두 가지 행위로 구성된다. 첫째, 일반적으로, 확률 및 통계 데이터에 기반한 예측 모델을 사용하여 특정 캐시처리 질의 결과가, (가설적으로) 재계산된 질의 결과에 상응하지 않을 가능성을 추정한다. 둘째, 보다 구체적으로, 캐시처리된 질의 결과가 최신상태가 아닐 확률에 잠재적으로 영향을 주고 증가시키는 실시간 이벤트를 고려한다. 이러한 실시간 이벤트들은, 일반적으로, 특정 캐시처리된 질의 결과의 부적확함을 확실하게 표시하지 않고 이러한 점에서 비결정론적이라는 것을 특징으로 한다. 따라서, 이들의 발생시에, 적확함 및 부적확함의 가능성에 대해서 각각 확률적 추단을 할 수 있을 뿐이다.
캐시처리된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여, 데이터베이스 재계산 명령이 DCP(2)로부터 자동으로 발송된다(15). 이 명령어는 MCP(3)가 수신하여서, 각각의 결과를 재계산하고 이를 DCP(2)로 보내준다(16). 이어서, DCP(2)는 그 결과를 수신하여 로컬 데이터베이스 기술(8)에 저장한다(17). 이렇게 하여 하나의 업데이트 사이클이 끝나고 확률 결정(14)으로 다시 돌아가 다음 사이클을 진행한다.
다음에, 본 캐시 업데이트 전략의 절차의 타이밍에 관한 특정 예를 도 6과 관련하여 설명한다. 이 예에서, DCP(2)는 20분마다 재계산 명령을 생성하도록 구성된다. 즉, 캐시처리 데이터가 최신상태일지 아닐지의 확률을 결정하고 재계산 명령을 생성하여 발송하는 사이클에 20분이 소요된다. MCP(3)에서의 자원들은 하루 동안에 대해 선험적으로 알고 있고 DCP(2)는 MCP(3)에서 사용가능한 계산 자원을 알고 있으므로, MCP(3)의 사용가능한 자원을 써서 재계산의 양을 동기화할 수 있다.
재계산 사이클의 시작시에, DCP(2)는 캐시처리된 데이터베이스 질의 결과의 현재의 적확성, 즉, 내부 데이터베이스(8)에 저장된 가격의 여행 추천 정보의 현재의 적확성을 분석한다. 이 사이클에서는 20분짜리 사이클의 마지막에 MCP(3)에 의해 처리될 1군의 재계산 명령을 산출할 것이다. 한편, MCP(3) 측에서, 마지막 사이클로부터의 명령이 계산되고 새로운 가격 추천정보가 생성되어 DCP로 반송된다. 이 정보는 여기서 저장되어서 다음 사이클에서 순환 정보의 분석 및 업데이트에 사용될 수 있다.
도 6은 MCP가 오전 04:00에서 5:00 사이의 시간대에서 상당량의 사용가능한 자원을 갖고 있어서, 이 시간대에서 많은 양의 재계산이 수행될 수 있음을 보여준다. 그러나 그 후에, 9:00까지는 사용가능한 자원이 없어서, 재계산을 할 수 없다. 그 이후 낮 동안, 즉, 오전 9:00에서 오후 7:00까지는, 일부 자원이 MCP(3)에서 사용가능하다.
오전 4:20에 시작하는 사이클 동안에, 분석기(6)는 캐시 적확성을 분석하고, 이 동안에 통합기(7)는 재계산 명령들을 생성한다. 이들 재계산 명령은 오전 4:40에 MCP(3)에 의해 실시될 것이다. 분석기(6)는 이 사이클의 시작시에 수신된 MCP 가격 추천청보에 초점을 맞추고 있다. 분석기는 수신한 가격 및 내부 저장소에 저장되어 있는 이전 가격 간의 차이를 계수한다. 이 차이에 기초하여, "변동성"을 반복시키는 정보원을 수정한다. 입력 관리자(5)는 향후의 검사를 위하여, 수신된 MCP 가격을 저장한다.
오전 4:40~5:00의 사이클에서 MCP(3)는 4:20~4:40 사이에 DCP(2)로부터 수신한 재계산 명령을 처리한다. DCP(2)는 이후의 시간 간격(오전 5:00)부터 이후 오전 9:00까지는 재계산 명령을 전혀 생성할 수 없음을 알고 있다. 그러나, 현재의 모든 캐시의 가격이 정해진 여행 추천정보를 계속해서 업데이트하기 위해 지속적으로 데이터 모델을 분석한다. 이는 이후의 각 사이클에 대해서 오전 8:40까지 동일하게 수행될 것이다.
오전 8:40에, 분석기(6)는 재계산이 전혀 없었던 지난 4 시간 동안에 캐시 적확성이 감소되었는지를 판단한다. 이에 따라 이후의 사이클 중에 재계산 명령을 생성하지만 그 양은 적다. 왜냐하면, 오전 9:00에서 오후 7:00까지는 MCP(3)에서 사용가능한 자원이 한정되어 있기 때문이다. 이때, 오전 9:00에 MCP(3)는 앞서의 시간에(즉, 오전 08:40~09:00) 수신한 새로운 재계산 명령의 처리를 시작하고, 오후 6:40~7:00시의 사이클의 마지막에서 처리를 중지한다
그 후, 밤 동안에는 MCP(3)에서 더 이상의 자원을 사용할 수 없다. 따라서, DCP(2)는 더 이상의 재계산 명령을 생성하지 않을 것이다. 하지만, 확률 모델 및 들어올 가능성이 있는 실시간 이벤트에 기초하여 계속해서 캐시 적확성을 분석한다.
마지막으로, 도 7은 도 2의 캐시 플랫폼(2)의 기능을 제공하는 컴퓨터 시스템의 개략도이다. 캐시 플랫폼(2) 내에서, 이 컴퓨터 시스템이 본 발명에서 설명한 방법 중 하나를 수행하도록 하는 명령어 집합이 실행될 수 있다. 캐시 플랫폼(2)은 프로세서(101)를 포함하며, 버스(104)를 통해 서로 통신하는 메인 메모리(102) 및 네트워크 인터페이스 장치(103)를 포함한다. 선택사항으로서, 캐시 플랫폼(2)은 정적 메모리(105)와 디스크 드라이브 장치(106)를 포함할 수 있다. 비디오 디스플레이(107), 문자-숫자 입력 장치(108), 및 커서 제어 장치(109)가 분산 목록 네비게이터 사용자 인터페이스(distribution list navigator user interface)를 구성할 수 있다. 네트워크 인터페이스 장치(103)는 데이터 캐시 플랫폼(2)을, 계산 플랫폼(3), 예측 모델을 채우기(populate) 위해 필요한 통계 데이터의 소스(예컨대, 통계 서버(9)), 변동성 데이터베이스(10) 및 초기 적확성 데이터베이스(11), 실시간 이벤트의 소스들, 인터넷 및/또는 기타 네트워크에 연결시킨다. 위에서 설명한 방법들 중의 어느 하나 또는 모두를 구현하는 명령어 집합(예컨대, 소프트웨어)은 기계가 판독 가능한 매체, 예를 들어, 메인 메모리(102) 및/또는 프로세서(101)에 완전하게 또는 최소한 부분적으로 상주한다. 소프트웨어(110)가 상주하는 기계 판독 가능 매체(111)는 또한, 디스크 드라이브 장치(106)의 일부분인 비휘발성 데이터 캐리어(111)(예를 들면, 고정형 자기 하드 디스크, 또는 이동형 광학 또는 자기 디스크)일 수 있다. 소프트웨어(110)는 네트워크 인터페이스 장치(103)를 이용하여 인터넷을 통해서 전파되는 신호(112)로써 송신되거나 수신될 수 있다.
본 캐시 업데이트 전략은 캐시 재계산 결정을 자동으로 생성하는 수단을 제공한다. 어느 캐시처리 질의 결과를 재계산해야 할지를 결정하고, 계산 플랫폼에서 사용가능한 계산 자원을 고려하여서 시간별로 재계산을 제어한다. 따라서, 전반적으로, 캐시처리된 질의 결과의 적확성은, 시간에 따라 최신상태인지 최신상태가 아닌지를 각각 모델링하는 확률 모델로써 추정된다. 이러한 최신상태 여부의 분석에 의해서, 캐시처리된 데이터베이스 질의 결과의 재계산의 근거가 되는 시간당 수십억 개 데이터 집합의 처리가 가능하다.
Claims (15)
- 분산 데이터베이스 시스템은 선행 계산된 데이터베이스 질의 결과가 보관되는 데이터 캐시 플랫폼 및 계산 플랫폼에 보관된 데이터에 기초하여 선행 계산된 데이터베이스 질의 결과를 계산하는 계산 플랫폼을 포함하며, 상기 분산 데이터베이스 시스템에서 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법에 있어서, 상기 방법은,
- 상기 데이터 캐시 플랫폼이, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정하며, 여기서
ㆍ상기 결정은 확률 모델 및 비동기 실시간 이벤트의 발생에 의존하고,
ㆍ상기 확률 모델은 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치를 모델링하고,
ㆍ상기 실시간 이벤트는 선행 계산된 데이터베이스 질의 결과의 만료에 관하여 비결정적이며, 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치에 확률적인 영향만을 미치고,
ㆍ상기 확률은 전반적으로 확률 모델에 기초하여 결정되고, 비동기 실시간 이벤트의 발생시에 수정됨;
- 주어진 임계값 이상으로 최신상태가 아닐 확률을 갖는 선행 계산된 데이터베이스 질의 결과는 재계산이 명령되는데, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여 선행 계산된 데이터베이스 질의 결과를 업데이트하기 위하여, 데이터 캐시 플랫폼이, 상기 계산 플랫폼으로 재계산 명령을 자동으로 발송하고; 그리고
- 데이터 캐시 플랫폼에서, 상기 재계산 명령의 결과로서, 업데이트된 선행 계산 데이터베이스 질의 결과를 수신하는 것을 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항에 있어서,
확률 모델은 통계 이력 데이터에 기초하여 계산 플랫폼에 보관된 데이터의 변동성을 모델링하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항 또는 제2항에 있어서,
- 데이터 캐시 플랫폼에서, 들어오는 비동기 실시간 이벤트가 확률 모델 내에 기술되어 있는지 여부를 분석하는 것을 더 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제3항에 있어서,
상기 들어오는 비동기 실시간 이벤트가 확률 모델 내에 기술되어 있는지 여부를 분석하는 것은,
- 선행 계산된 데이터베이스 질의 결과의 분담부분은 들어오는 비동기 실시간 이벤트에 의해 잠재적으로 영향을 받는데, 데이터 캐시 플랫폼에 보관된 선행 계산 데이터베이스 질의 결과의 분담부분의 적확성을 결정하고;
- 결정된 적확성을, 확률 모델에 의한 선행 계산 데이터베이스 질의 결과의 분담부분의 예측 적확성과 비교하고; 그리고
- 결정된 적확성이 예측된 적확성보다 주어진 범위만큼 낮은 경우에, 들어오는 비동기 실시간 이벤트가 확률 모델 내에 기술되어 있지 않음을 결정하는 것을 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제4항에 있어서,
선행 계산된 데이터베이스 질의 결과의 분담부분의 적확성을 결정하는 것은, 계산 플랫폼에 샘플 재계산 명령을 발송하는 것과, 샘플 재계산 명령의 결과를 데이터 캐시 플랫폼에 이전에 보관된 각각의 선행 계산 데이터베이스 질의 결과와 비교하는 것을 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제3항 내지 제5항 중 어느 한 항에 있어서,
- 확률 모델 내에 기술되어 있지 않은 것으로 결정된 실시간 이벤트에 대해서, 잠재적으로 영향을 받을 선행 계산 데이터베이스 질의 결과에 대한 재계산 명령을 가능한한 신속하게 발송하는 것을 더 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제4항 내지 제6항 중 어느 한 항에 있어서,
- 확률 모델 내에 기술되어 있는 것으로 결정된 실시간 이벤트에 대해서, 특정 기간에 걸쳐 상기 실시간 이벤트를 누적하고, 실제로 발생하여 누적된 실시간 이벤트를 확률 모델 내에 기술된 것과 비교하고, 그리고 실제로 발생된 누적된 실시간 이벤트가 확률 모델 내에 기술된 것으로부터 사전 설정된 범위만큼 벗어난 경우에, 잠재적으로 영향을 받을 선행 계산 데이터베이스 질의 결과에 대한 재계산 명령을 가능한한 신속하게 발송하는 것을 더 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항 내지 제7항 중 어느 한 항에 있어서,
선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정하고 재계산을 발송할 때에, 데이터 캐시 플랫폼은, 계산 플랫폼에 보관된 인접 데이터 집합의 그룹에 상응하는 선행 계산된 데이터베이스 질의 결과의 격자(grid)를 고려하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항 내지 제8항 중 어느 한 항에 있어서,
상기 데이터 캐시 플랫폼은 계산 플랫폼에 있는 사용가능한 계산 자원의 양에 기초하여 재계산 명령을 발송하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항 내지 제9항 중 어느 한 항에 있어서,
상기 분산 데이터베이스 시스템은 여행 예약 시스템이며, 상기 계산 플랫폼은 여행 이용가능성 및 운임에 관한 정보를 보관하고, 상기 데이터 캐시 플랫폼은 여행 이용가능성 정보와 운임으로부터 계산된 가격이 포함된 여행 추천정보를 보관하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제10항에 있어서,
실시간 이벤트는 항공편 운임의 변경, 항공기 좌석 이용가능성의 변경, 고객의 항공권 요청, 및/또는 항공편 취소를 포함하는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 제1항 내지 제11항 중 어느 한 항에 있어서,
상기 분산 데이터베이스 시스템은, 계산 플랫폼에 연결되며 선행 계산된 데이터베이스 질의 결과를 보관하고 조직화하는, 적어도 하나의 애플리케이션 플랫폼을 포함하되, 애플리케이션 플랫폼에 저장되는 데이터베이스 질의 결과는 데이터 캐시 플랫폼이 발송한 재계산 명령의 결과로서 계산 플랫폼에 의해 채워지고 그리고/또는 업데이트되는, 선행 계산된 데이터베이스 질의 결과를 업데이트하는 방법. - 계산 플랫폼에 보관된 데이터에 기초하여 계산 플랫폼에 의해 계산된, 선행 계산된 데이터베이스 질의 결과를 보관하는 데이터 캐시 플랫폼으로서,
- 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정하며, 여기서
ㆍ상기 결정은 확률 모델 및 비동기 실시간 이벤트의 발생에 의존하고,
ㆍ상기 확률 모델은 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치를 모델링하고,
ㆍ상기 실시간 이벤트는 선행 계산된 데이터베이스 질의 결과의 만료에 관하여 비결정적이며, 데이터 캐시 플랫폼에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치에 확률적인 영향만을 미치며,
ㆍ상기 확률은 전반적으로 확률 모델에 기초하여 결정되고, 비동기 실시간 이벤트의 발생시에 수정됨;
- 주어진 임계값 이상으로 최신상태가 아닐 확률을 갖는 선행 계산된 데이터베이스 질의 결과는 재계산이 명령되는데, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여 선행 계산된 데이터베이스 질의 결과를 업데이트하기 위하여 상기 계산 플랫폼으로 재계산 명령을 자동으로 발송하고; 그리고
- 상기 재계산 명령의 결과로서, 업데이트된 선행 계산 데이터베이스 질의 결과를 수신하도록 구성되는, 데이터 캐시 플랫폼. - 제13항에 있어서,
- 들어오는 비동기 실시간 이벤트가 확률 모델 내에 기술되어 있는지 여부를 분석하도록;
- 확률 모델 내에 기술되어 있지 않은 것으로 결정된 실시간 이벤트에 대해서, 각 특정 선행 계산 데이터베이스 질의 결과에 대한 재계산 명령을 가능한한 신속하게 발송하도록;
- 확률 모델 내에 기술되어 있는 것으로 결정된 실시간 이벤트에 대해서, 특정 기간에 걸쳐 상기 실시간 이벤트를 누적하고, 실제로 발생하여 누적된 실시간 이벤트를 확률 모델 내에 기술된 것과 비교하고, 실제로 발생된 누적된 실시간 이벤트가 확률 모델 내에 기술된 것으로부터 사전 설정된 범위만큼 벗어난 경우에, 잠재적으로 영향을 받을 선행 계산 데이터베이스 질의 결과에 대한 재계산 명령을 가능한한 신속하게 발송하도록 더 구성되는, 데이터 캐시 플랫폼. - 컴퓨터 프로그램 명령어가 저장되는 비일시적인 컴퓨터 판독가능 저장 매체로서,
상기 명령어는 컴퓨터 시스템 상에서 실행될 때에 컴퓨터 시스템으로 하여금,
- 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닐 확률을 결정하고, 여기서
ㆍ상기 결정은 확률 모델 및 비동기 실시간 이벤트의 발생에 의존하고,
ㆍ상기 확률 모델은 컴퓨터 시스템에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치를 모델링하고,
ㆍ상기 실시간 이벤트는 선행 계산된 데이터베이스 질의 결과의 만료에 관하여 비결정적이며, 컴퓨터 시스템에 보관된 선행 계산된 데이터베이스 질의 결과와 추정된 실제 데이터베이스 질의 결과 사이의 불일치에 확률적인 영향만을 미치고,
ㆍ상기 확률은 전반적으로 확률 모델에 기초하여 결정되고, 비동기 실시간 이벤트의 발생시에 수정됨;
- 주어진 임계값 이상으로 최신상태가 아닐 확률을 갖는 선행 계산된 데이터베이스 질의 결과는 재계산이 명령되는데, 선행 계산된 데이터베이스 질의 결과가 최신상태가 아닌 것으로 결정된 확률에 기초하여 선행 계산된 데이터베이스 질의 결과를 업데이트하기 위하여 재계산 명령을 자동으로 발송하고; 그리고
- 상기 재계산 명령의 결과로서, 업데이트된 선행 계산 데이터베이스 질의 결과를 수신하도록 하는, 비일시적인 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12368020.9A EP2698729B1 (en) | 2012-08-14 | 2012-08-14 | Updating cached database query results |
EP12368020.9 | 2012-08-14 | ||
US13/585,286 | 2012-08-14 | ||
US13/585,286 US9235620B2 (en) | 2012-08-14 | 2012-08-14 | Updating cached database query results |
PCT/EP2013/002390 WO2014026753A1 (en) | 2012-08-14 | 2013-08-09 | Updating cached database query results |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150043338A true KR20150043338A (ko) | 2015-04-22 |
KR101972199B1 KR101972199B1 (ko) | 2019-04-24 |
Family
ID=49003740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157004168A KR101972199B1 (ko) | 2012-08-14 | 2013-08-09 | 캐시처리된 데이터베이스 질의 결과의 업데이트 |
Country Status (11)
Country | Link |
---|---|
EP (1) | EP2885725B1 (ko) |
JP (1) | JP6162240B2 (ko) |
KR (1) | KR101972199B1 (ko) |
CN (1) | CN104471573B (ko) |
AU (1) | AU2013304366B2 (ko) |
BR (1) | BR112014031390A2 (ko) |
CA (1) | CA2875735C (ko) |
ES (1) | ES2714676T3 (ko) |
IN (1) | IN2014DN10461A (ko) |
SG (1) | SG11201408814XA (ko) |
WO (1) | WO2014026753A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230038320A (ko) * | 2020-08-10 | 2023-03-17 | 구글 엘엘씨 | 데이터 질의들의 예상 사전 실행 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9984165B2 (en) | 2014-02-13 | 2018-05-29 | Amadeus S.A.S. | Increasing search result validity |
ES2689305T3 (es) * | 2014-02-13 | 2018-11-13 | Amadeus S.A.S. | Aumentar la validez del resultado de búsqueda |
WO2015120968A1 (en) * | 2014-02-13 | 2015-08-20 | Amadeus S.A.S. | Increasing search result validity |
US9582536B2 (en) | 2014-02-19 | 2017-02-28 | Amadeus S.A.S. | Long-term validity of pre-computed request results |
EP3016000B1 (en) | 2014-11-03 | 2024-07-31 | Amadeus S.A.S. | Managing pre-computed search results |
US10395294B2 (en) | 2014-11-03 | 2019-08-27 | Amadeus S.A.S. | Managing pre-computed search results |
WO2016070964A1 (en) | 2014-11-03 | 2016-05-12 | Amadeus S.A.S. | Managing pre-computed search results |
EP3128441B1 (en) | 2015-08-03 | 2018-10-10 | Amadeus S.A.S. | Handling data requests |
US20180075391A1 (en) * | 2016-09-15 | 2018-03-15 | Travelator Inc. | Network-based real-time enterprise travel management apparatus, methods, and systems |
CA3038199A1 (en) * | 2018-04-03 | 2019-10-03 | Amadeus S.A.S. | Updating cache data |
CN110858204B (zh) * | 2018-08-16 | 2023-09-19 | 中国移动通信集团重庆有限公司 | 查询请求的处理方法、设备和介质 |
FR3086412B1 (fr) | 2018-09-20 | 2020-10-30 | Amadeus Sas | Recalcul des resultats de recherche precalcules |
CN109788305B (zh) * | 2018-12-10 | 2021-03-02 | 北京爱奇艺科技有限公司 | 一种缓存数据的刷新方法及装置 |
FR3092920B1 (fr) | 2019-02-14 | 2022-04-01 | Amadeus | Traitement d’interrogations de base de données complexes |
FR3093574B1 (fr) * | 2019-03-04 | 2021-10-01 | Amadeus | Traitement de données distribuées |
FR3093575B1 (fr) | 2019-03-04 | 2021-12-03 | Amadeus | Traitement de données distribuées |
CN110795457B (zh) * | 2019-09-24 | 2023-05-05 | 苏宁云计算有限公司 | 数据缓存处理方法、装置、计算机设备和存储介质 |
US11593356B2 (en) * | 2020-09-11 | 2023-02-28 | ForgeRock, Inc. | Never stale caching of effective properties |
CA3200431A1 (en) | 2020-12-04 | 2022-06-09 | Guillaume Lecourt | Processing search requests |
US11341137B1 (en) | 2020-12-04 | 2022-05-24 | Amadeus S.A.S. | Processing search requests |
EP4009188A1 (en) | 2020-12-04 | 2022-06-08 | Amadeus S.A.S. | Processing search requests |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234682A1 (en) * | 1999-11-01 | 2009-09-17 | Ita Software, Inc., A Delaware Corporation | Method and apparatus for providing availability of airline seats |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128701A (en) * | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US6725333B1 (en) * | 1999-04-22 | 2004-04-20 | International Business Machines Corporation | System and method for managing cachable entities |
AU2001278654A1 (en) * | 2000-07-17 | 2002-01-30 | Eplication Networks Ltd. | Bandwidth savings and qos improvement for www sites by catching static and dynamic content on a distributed network of caches |
US7085747B2 (en) * | 2001-09-26 | 2006-08-01 | J Koninklijke Philips Electronics, Nv. | Real-time event recommender for media programming using “Fuzzy-Now” and “Personal Scheduler” |
JP5040311B2 (ja) * | 2004-10-27 | 2012-10-03 | 日本電気株式会社 | 資源管理システム、資源情報提供方法、及び、プログラム |
JP5387457B2 (ja) * | 2010-03-10 | 2014-01-15 | 富士電機株式会社 | 遠隔監視装置および該装置におけるデータアクセス方法 |
-
2013
- 2013-08-09 KR KR1020157004168A patent/KR101972199B1/ko active IP Right Grant
- 2013-08-09 IN IN10461DEN2014 patent/IN2014DN10461A/en unknown
- 2013-08-09 SG SG11201408814XA patent/SG11201408814XA/en unknown
- 2013-08-09 WO PCT/EP2013/002390 patent/WO2014026753A1/en active Application Filing
- 2013-08-09 ES ES13750848T patent/ES2714676T3/es active Active
- 2013-08-09 JP JP2015526899A patent/JP6162240B2/ja active Active
- 2013-08-09 EP EP13750848.7A patent/EP2885725B1/en active Active
- 2013-08-09 BR BR112014031390A patent/BR112014031390A2/pt not_active IP Right Cessation
- 2013-08-09 CA CA2875735A patent/CA2875735C/en active Active
- 2013-08-09 CN CN201380037889.4A patent/CN104471573B/zh active Active
- 2013-08-09 AU AU2013304366A patent/AU2013304366B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234682A1 (en) * | 1999-11-01 | 2009-09-17 | Ita Software, Inc., A Delaware Corporation | Method and apparatus for providing availability of airline seats |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230038320A (ko) * | 2020-08-10 | 2023-03-17 | 구글 엘엘씨 | 데이터 질의들의 예상 사전 실행 |
US11755574B2 (en) | 2020-08-10 | 2023-09-12 | Google Llc | Anticipatory pre-execution of data queries |
Also Published As
Publication number | Publication date |
---|---|
CA2875735A1 (en) | 2014-02-20 |
EP2885725A1 (en) | 2015-06-24 |
AU2013304366A1 (en) | 2015-02-26 |
CN104471573A (zh) | 2015-03-25 |
KR101972199B1 (ko) | 2019-04-24 |
BR112014031390A2 (pt) | 2017-06-27 |
EP2885725B1 (en) | 2018-12-12 |
SG11201408814XA (en) | 2015-01-29 |
WO2014026753A1 (en) | 2014-02-20 |
JP6162240B2 (ja) | 2017-07-12 |
AU2013304366B2 (en) | 2016-05-12 |
ES2714676T3 (es) | 2019-05-29 |
IN2014DN10461A (ko) | 2015-08-21 |
JP2015531129A (ja) | 2015-10-29 |
CN104471573B (zh) | 2017-07-18 |
CA2875735C (en) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101972199B1 (ko) | 캐시처리된 데이터베이스 질의 결과의 업데이트 | |
US9235620B2 (en) | Updating cached database query results | |
KR101916837B1 (ko) | 일괄 지향 연산을 사용하는 데이터베이스 시스템 | |
US20160171008A1 (en) | Updating cached database query results | |
US20200057918A1 (en) | Systems and methods for training artificial intelligence to predict utilization of resources | |
US20040249682A1 (en) | Filling a query cache for travel planning | |
EP2911070B1 (en) | Long-term validity of pre-computed request results | |
US20040249799A1 (en) | Query caching for travel planning systems | |
EP3128441B1 (en) | Handling data requests | |
EP1846848A2 (en) | System, method, and computer program product for improving accuracy of cache-based searches | |
US10956955B2 (en) | Managing pre-computed search results | |
EP2698729B1 (en) | Updating cached database query results | |
WO2015124275A1 (en) | Long-term validity of pre-computed request results | |
EP3016000B1 (en) | Managing pre-computed search results | |
CN107004026B (zh) | 管理预先计算的搜索结果 | |
US20230108482A1 (en) | System and method for large-scale accelerated parallel predictive modelling and control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |