PL182609B1

PL182609B1 - Sposób realizacji dostępu do danych zapamiętanych w systemie komputerowym

Info

Publication number: PL182609B1
Application number: PL95321160A
Authority: PL
Inventors: Peter B. Malcolm
Original assignee: Cheyenne Advanced Tech Ltd
Priority date: 1994-12-15
Filing date: 1995-12-01
Publication date: 2002-02-28
Also published as: KR980700613A; FI972544A0; MX9704419A; EP0797805A1; CA2207735A1; KR100437199B1; DE69516538D1; ES2145308T3; PL321160A1; NO972784D0; AU3988995A; AU710755B2; CN1118035C; NO312529B1; JPH10510642A; DE69516538T2; HU221081B1; CA2207735C; IS1890B; IS4507A

Abstract

pamietanych w systemie komputerowym, z zaloze- niem hierarchicznego zarzadzania pamiecia, wypo- sazonym w pamiec swobodnego dostepu, jednostke centralna, glówna pamiec masowa, pomocnicza pamiec archiwizacji oraz urzadzenie archiwizujace dane zawarte w systemie komputerowym, przepro- wadzany w etapach, w których w trybie normalnej pracy doprowadza sie instrukcje zapamietane w pamieci swobodnego dostepu do jednostki cen- tralnej i nakazuje sie jej wyszukiwanie dostepu do danych zapamietanych w glównej pamieci masowej generujac przynajmniej zadanie odczytu, identyfi- kuje sie plik do którego dostep jest zadany,........... jesli zadane czesci pliku nie znajduja sie w glównej pamieci masowej, odzyskuje sie zadane czesci pliku z pomocniczej pamieci archiwizacji i przesyla sie do glównej pamieci masowej dla realizacji dostepu, znamienny tym, ze w trybie normalnej pracy two- rzy sie baze danych identyfikujaca polozenie czesci pliku do których dostep ma byc zrealizowany, przy czym same czesci pliku znajduja sie poza baza da- nych, natomiast w trybie archiwizacji wyznacza sie, na podstawie bazy danych, polozenia tych czesci pliku, do których dostep byl zrealizowany. FIG. 3 PL PL PL

Description

Przedmiotem wynalazku jest sposób realizacji dostępu do danych zapamiętanych w systemie komputerowym, zwłaszcza w hierarchicznym zarządzaniu pamięcią komputerowych plików danych.

Ostatnio pojemność pamięci twardego dysku komputera osobistego działającego jako urządzenie pamięci masowej gwałtownie wzrasta. Szczególnie dotyczy to danych na serwerach plików sieciowych, gdzie znane są zawierające wiele tysięcy plików podsystemy dysku twardego o pojemności 1GB (1 gigabajt) lub więcej.

Zazwyczaj wiele tych plików na serwerze plików sieciowych nie jest udostępnianych przez jakiś czas. Tak może się dziać z wielu powodów, na przykład plik może mieć już starą wersję, jest to zdublowana kopia, lub był on potrzebny tylko w ciągu jednego dnia. Plik faktycznie jest zbędny, jednak tylko właściciel pliku może określić, że tak jest rzeczywiście i konsekwentnie plik jest przechowywany jako rezerwa, lub dla zabezpieczenia. Prawidłowa praktyka komputerowa sugeruje, że w przypadku wątpliwości pliki powinny być zachowane jako niezidentyfikowane. Naturalną konsekwencją tego jest, że dysk twardy jest wypełniony nieaktualnymi plikami. Tak dzieje się faktycznie w każdym mikroprocesorze osobistego systemu komputerowego, od urządzeń najmniejszych do największych.

Hierarchiczne zarządzenie pamięcią HSM jest znanym technicznym rozwiązaniem tego problemu. Najbardziej operatywne systemy zachowują zapis ostatnich danych i czas pliku jest datowany. Wiele z nich zachowuje również zapis ostatnich danych i czas pliku jest dostępny. System HSM cyklicznie przegląda listę plików na twardym dysku sprawdzając ich ostatnio dostępne datę/czas. Jeżeli plik nie był używany przez określony okres czasu, zazwyczaj 1 do 6 miesięcy, wtedy plik jest archiwizowany, to znaczy przenoszony do pamięci pomocniczej, takiej jak taśma i usuwany z dysku twardego.

System HSM jest właściwie zintegrowany z zasobem rezerwowym. Rozważane są udogodnienia związane z systemem HSM, dublowania na taśmie, w którym nieaktywny próg jest ograniczony do trzech miesięcy. Proces tworzenia rezerwy przebiega okresowo (właściwie przynajmniej raz na tydzień) i notuje, że ostatnie dane dostępne pochodzą z pliku wprowadzonego dawniej niż przed trzema miesiącami. System rezerwy zabezpiecza trzy rezerwowe kopie pliku na różnych taśmach (albo czeka aż do następnej okazji, kiedy ma trzy kopie) i wtedy usuwa plik. Jeżeli kiedykolwiek plik będzie potrzebny, użytkownik może w prosty sposób przywrócić go z trzech taśm rezerwowych. System rezerwy zabezpiecza to, że taśmy zawierające archiwalne kopie pliku nie są przegrywane. Ten sposób wprowadza długoterminowe rozwiązanie problemu, a w międzyczasie taśmy są usuwane, z łatwością przemieszczane i w związku z tym operacja nie jest kosztowna.

Plik raz usunięty za pomocą systemu HSM więcej nie pojawia się na dysku pierwotnym. To może być niekorzystne, gdyż użytkownik, albo program użytkowy, powinien mieć dostęp do pożądanego pliku, a tymczasem nie ma śladu pliku na badanym dysku. I wtedy użytkownik nie ma możliwości zidentyfikowania, że plik mógłby być przywrócony i aplikacja może prowadzić do fatalnej pomyłki wynikającej z mylącej informacji.

W warunkach idealnych zamiast usuwać plik bez śladu, powinien być on stale uwzględniony na liście w katalogu dysku, korzystnie z jakimiś środkami identyfikującymi, że został przesunięty do zasobu rezerwowego lub pamięci pomocniczej, ale bez aktualnych danych pliku zajmujących przestrzeń dyskową. Udoskonalenia tego rodzaju zostały wprowa

182 609 dzone w wielu systemach HSM i są znane jako migracja. System HSM właściwie opuszcza adnotacje dotyczące pliku w katalogu i, albo przemieszcza dane pliku z małą resztką zawierającą identyfikację miejsca, gdzie plik został przesunięty i może być znaleziony, albo usuwa kompletne dane pozostawiając plik o zerowej długości.

Dalsze udoskonalenie systemów HSM znane jako de-migracja powoduje, że system HSM automatycznie przywraca przesunięte pliki na dysk pierwotny w przypadku, gdy użytkownik lub aplikacja próbuje go udostępnić. Oczywiście jest to możliwe tylko wtedy, jeśli pamięć pomocnicza zawierająca przesunięty plik jest ciągle włączona do tego systemu. Przesunięte dane są przechowywane w urządzeniu podręcznym (near-line) na przykład w magazynku dysków optycznych (jukebox) a żądanie dostępu do pliku może być nawet tymczasowo zawieszone do momentu, aż plik zostanie przywrócony, a następnie dopuszcza się postępowanie takie jakby plik nigdy nie był przesuwany.

Opisane systemy HSM są efektywne, jeśli są wprowadzone do wielkiej liczby relatywnie małych plików używanych jednocześnie przez jednego użytkownika. Jednak rozważa się system bazy danych, w którym wielu użytkowników działa pojedynczo oraz wielkie pliki bazy danych zawierające nazwiska klientów i zapisy adresów, lub podobne dane archiwalne. Dopóki nowe zapisy klienta są ciągle dodawane i zapisy aktualnych klientów są zmieniane, plik nie jest nigdy przeznaczony do przesunięcia, gdyż musi być zawsze dostępny. Niemniej jednak, taki plik będzie miał właściwie wiele zapisów dotyczących nieaktualnych klientów, które dokładnie muszą być przetrzymywane dla przyszłych możliwych potrzeb, ale te zapisy mogą być niedostępne w znacznym okresie czasu. Obszar dysku zajęty przez takie nieaktualne zapisy może często obejmować większość obszaru zajętego przez integralny plik.

Znany jest bezpośredni dostęp do pliku, w którym mała ilość danych może być wpisana do, albo odczytana z części pliku przypadkowo. Kiedy nastąpi nowy bezpośredni dostęp do pliku, plik ma zerową długość aż do wpisania danych do niego. Dopóki plik ma bezpośredni dostęp, pierwszy fragment wpisanych danych nie potrzebuje koniecznie być przy ofsecie 0 (to znaczy na początku pliku), może on być wpisany w każdej pozycji. Na przykład 10 bajtów danych mogłoby być wpisane z ofsetu 1000. Plik wtedy może mieć logiczną długość 1010 bajtów, gdy tylko 10 bajtów aktualnie zostało wpisanych.. Niektóre systemy operacyjne zajmują się taką operacją poprzez automatyczne wpisywanie brakujących 1000 bajtów za pomocą zera lub bezpośrednio, skutkiem tego następuje alokacja nawet 1010 bajtów, aczkolwiek zostało wpisane tylko 10 bajtów.

Systemy operacyjne używane w Network File Servers, oparte są na koncepcji rozrzedzonych plików, w których przestrzeń dysku jest tylko przeznaczona do tych przestrzeni plików, do których dane aktualnie są wpisywane. Właściwie jest to osiągane poprzez rozszerzanie tablicy przydziału pliku, to znaczy tablicy, w której dysk jest zachowywany, tak że każde wprowadzenie określające następną lokalizację, w której dane dla szczególnego pliku są przechowywane, jest połączone z wartością określającą logiczny ofset, przy którym dane zaczynają się. W ten sposób w powyższym przykładzie pierwsze wejście określałoby, że dane zaczynają się na pozycji x na dysku i że pierwszy bajt jest przy logicznym ofsecie 1000 w pliku (w normalnym pliku logicznym ofsetem powinno być 0). Przestrzenie rozrzedzonego pliku, do których dane nie są wpisywane są znane jako przerwy.

Sposób realizacji dostępu do danych zapamiętanych w systemie komputerowym, z założeniem hierarchicznego zarządzania pamięcią, wyposażonym w pamięć swobodnego dostępu, jednostkę centralną, główną pamięć masową, pomocniczą pamięć archiwizacji oraz urządzenie archiwizujące dane zawarte w systemie komputerowym, przeprowadzany w etapach, w których w trybie normalnej pracy doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej wyszukiwanie dostępu do danych zapamiętanych w głównej pamięci masowej generując przynajmniej żądanie odczytu, identyfikuje się plik do którego dostęp jest żądany, przy czym plik składa się z części pliku, identyfikuje się części pliku w pliku do którego potrzebny jest dostęp i realizuje się dostęp do części pliku, przy czym podczas realizacji dostępu przegląda się tablicę alokacji plików określającą położenie części pliku w głównej pamięci masowej, sprawdza się czy części pliku znajdują się w pamięci masowej i jeśli tak, to wyznacza się ich położenie, natomiast w trybie archiwi

182 609 zacji doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej archiwizację, w pomocniczej pamięci archiwizacji, wybranych danych zapamiętanych w głównej pamięci masowej i zwalnia się miejsce w głównej pamięci masowej, archiwizuje się, w pomocniczej pamięci archiwizacji, przynajmniej niektóre części pliku zapamiętane w głównej pamięci masowej do których dostęp nie był realizowany i zwalnia się miejsce w głównej pamięci masowej zajmowane przez te części pliku, do których dostęp nie był realizowany, ale które zostały zarchiwizowane i zachowuje się te części pliku w głównej pamięci masowej, do których dostęp był zrealizowany, zaś w trybie odzyskiwania doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej odzyskanie wybranych, zarchiwizowanych danych z pomocniczej pamięci archiwizacji, i przesłanie do głównej pamięci masowej dla realizacji dostępu, przy czym jeśli żądane części pliku nie znajdują się w głównej pamięci masowej, odzyskuje się żądane części pliku z pomocniczej pamięci archiwizacji i przesyła się do głównej pamięci masowej dla realizacji dostępu, według wynalazku charakteryzuje się tym, że w trybie normalnej pracy tworzy się bazę danych identyfikującą położenie części pliku do których dostęp ma być zrealizowany, przy czym same części pliku znajdują się poza bazą danych, natomiast w trybie archiwizacji wyznacza się, na podstawie bazy danych, położenia tych części pliku, do których dostęp był zrealizowany.

Korzystnym jest, że jako części pliku stosuje się bloki odpowiadające blokom elementarnym zidentyfikowanym w tablicy alokacji plików.

Za pomocą bazy danych dodatkowo określa się czy dostęp jest dostępem zapisu czy dostępem odczytu.

Tworzy się bazę danych która identyfikuje części pliku do którego ma być zrealizowany dostęp oraz datę lub datę/czas w którym dostęp został zrealizowany.

Podczas identyfikacji części pliku do których zrealizowano dostęp lub podczas archiwizacji, identyfikuje się na podstawie bazy danych części pliku do których był zrealizowany dostęp od czasu zanotowanej daty oraz części pliku do których dostęp nie był zrealizowany od czasu zanotowanej daty, przy czym podczas archiwizacji archiwizuje się do pomocniczej pamięci archiwizacji przynajmniej określone części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty, a ponadto zwalnia się w głównej pamięci masowej miejsce zajmowane przez te części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty i które zostały zarchiwizowane w pomocniczej pamięci archiwizacji, a zachowuje się w głównej pamięci masowej te części pliku, do których był zrealizowany dostęp od czasu zanotowanej daty.

Podczas archiwizacji i zwalniania miejsca archiwizuje się i usuwa się te części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty i już tworzyły kopię zapasową określoną ilość razy.

Podczas zwalniania miejsca w głównej pamięci masowej, koryguje się tablicę alokacji plików.

Podczas tworzenia bazy danych konsoliduje się bazę danych i usuwa się informacje nadmiarowe.

Rozwiązanie według wynalazku stanowi korzystnie pomocniczą bazę danych, która jest zachowana jako identyfikująca, które bloki danych są dostępne i na jakich warunkach. Wtedy niedostępne bloki mogą być archiwizowane i usuwane z plików dysku, aby ograniczyć warunki pamięci. To usunięcie może być osiągnięte poprzez dostosowanie tablicy przydziału pliku FAT, potrzebne do obróbki pliku jako pliku rozrzedzonego. Jeżeli żądanie odczytu jest wykonywane dla części pliku, który został zarchiwizowany, albo przesunięty, wówczas system de-migracji jest wystarczający dla żądanej części pliku przed żądaniem odczytu. Jednak zapisy, które zostały ostatnio udostępnione, będą już na twardym dysku i mogą być bezpośrednio udostępnione w późniejszym czasie. W ten sposób zapisy, które są wykorzystywane okazjonalnie, będą dostępne do odczytu bez potrzeby zachowania pliku wejściowego na twardym dysku.

Sposób może być rozszerzony na skutek zwiększenia progu nieaktywności do żywotności bazy pomocniczej. Jeżeli tylko mała liczba zapisów jest dostępna poza dużym plikiem

182 609 bazy danych, wtedy wszystkie dostępne zapisy mogą być zachowywane na twardym dysku, bez względu na ostatnio dostępne dane. Niedostępne zapisy mogą jednak być usunięte do wolnej przestrzeni dysku. W tym przypadku pomocnicza baza danych nie musi zawierać daty, albo daty/czasu ostatniego zapisu. Przy długich przerwach, na przykład miesięcznych, wszystkie dostępne przestrzenie mogą być przesunięte i pomocnicza baza danych może być oczyszczona.

Sposób według wynalazku może być stosowany łącznie ze sposobem zachowywania plików częściowych programów. Wtedy pomocnicza baza danych jest konieczna dla dodatkowego zapisu, czy dostęp do pliku był dostępem do zapisu, w którym data przypadku może być modyfikowana albo jest dostępem do odczytu. Sposób dublowania plików cząstkowych wspomnianego zastosowania nie wprowadza niczego do wolnej przestrzeni dysku twardego, podczas gdy pozostawia te dostępne zapisy, które były podobnie ponownie dostępne.

Przedmiot wynalazku jest uwidoczniony w przykładzie wykonania na rysunku, na którym fig. 1 przedstawia schemat blokowy osobistego systemu komputerowego zawierającego napęd taśmowy, fig. 2 - schemat dostępu do pliku, fig. 3 - sieć działań operacji dostępu do pliku zgodnie z wynalazkiem, fig. 4 - schemat analogiczny do pokazanego na fig. 2, przedstawiający części pliku przeznaczone do zachowania na twardym dysku, fig. 5 - sieć działań operacji archiwizacji, realizowanej przez system hierarchicznego zarządzania pamięcią zgodnie z wynalazkiem, fig. 6 - sieć działań operacji odczytu częściowo zarchiwizowanego pliku, fig. 7 - część mapy pamięci na poziomie systemu operacyjnego konwencjonalnego komputera osobistego, a fig. 8 przedstawia odpowiednią część mapy pamięci w sposobie według wynalazku.

Na fig. 1 przedstawiono schemat blokowy osobistego systemu komputerowego, w którym komputer osobisty PC 10 jest zaopatrzony w jednostkę centralną CPU 12 połączoną z pamięcią swobodnego dostępu RAM 14 oraz główną pamięcią masową 16, w postaci twardego dysku. Komputer osobisty 10 jest połączony z taśmową pomocniczą pamięcią archiwizacji 18, umożliwiającą pomocnicze gromadzenie danych w celu archiwizacji lub tworzenia rezerwowych kopii.

W trybie roboczym, w pamięci swobodnego dostępu 14 są zapamiętywane instrukcje, które są podawane do jednostki centralnej 12 w celu sterowania jej pracą. Niektóre z tych instrukcji pochodzą bezpośrednio z systemu operacyjnego, a inne są wywoływane przez program użytkowy, uruchomiony w komputerze.

System operacyjny zarządza tablicą alokacji plików FAT, zapamiętującą, na twardym dysku, fizyczne położenie każdego bloku danych. Dodatkowo, system operacyjny zapisuje znaczniki archiwizacji, odnoszące się do każdego zbioru, które są ustawiane gdy zbiór jest modyfikowany i które mogą być zerowane po stworzeniu kopii rezerwowej. Dotychczasowe sposoby tworzenia kopii rezerwowych wykorzystywały znaczniki archiwizacyjne do sprawdzania czy plik był modyfikowany i czy w związku z tym należy stworzyć jego rezerwową kopię.

System hierarchicznego zarządzania pamięcią jest wykorzystywany do automatycznego tworzenia kopii dowolnych plików, nieużywanych przez określony okres czasu.

W korzystnym rozwiązaniu według wynalazku tworzona jest dodatkowa baza danych zawierająca informację, dla każdego pliku, które bloki danych były wykorzystywane i w jakim czasie, dzięki czemu system hierarchicznego zarządzania pamięcią może je okresowo archiwizować lub przesuwać. Później można te bloki danych usunąć, dzięki czemu można zredukować wymagania dotyczące pamięci.

Rozważmy plik o początkowej długości 125 bajtów, złożony z pięciu rekordów o długości 25 bajtów każdy, zapamiętany pierwszego stycznia 1995r. W tej samej dacie założono dodatkową bazę danych, przechwytującą żądania dostępu do istniejących rekordów lub żądania dołączenia nowych rekordów do pliku. Przykładowe żądania, np. z okresu między 1 stycznia a 10 kwietnia 1995r. przedstawiono poniżej:

stycznia 1995r. - założono nowy rekord, długości 25 bajtów, umieszczony przy ofsecie 125, lutego 1995r. - użyto starego rekordu (odczyt), długości 25 bajtów, umieszczonego przy ofsecie 25,

182 609 lutego 1995r. - użyto starego rekordu (odczyt), długości 25 bajtów, umieszczonego przy ofsecie 75, kwietnia 1995r. - założono nowy rekord, długości 25 bajtów, umieszczony przy ofsecie 150.

Przechwycenie żądania dostępu powoduje zapisanie, w dodatkowej bazie danych, długości rekordu oraz jego położenia w pliku, w sposób pokazany w tabeli 1:

Tabela 1

Dzień nr	Ofset	Długość
34720	125	25
34733	25	25
34745	75	25
34792	150	25

Oczywiście niezbędna jest możliwość identyfikacji poszczególnych plików. Tu przyjęto założenie, że odrębna, dodatkowa baza danych jest przyporządkowana każdemu plikowi.

W praktyce może być korzystne przyporządkowanie odrębnej bazy danych każdemu podkatalogowi, przy czym plik musi mieć możliwość identyfikacji wewnątrz bazy danych. Dzięki temu zmniejsza się ilość dodatkowych baz danych, a tym samym ilość dodatkowych plików, które należy założyć. W zasadzie pojedyncza, dodatkowa baza danych może być założona dla całego dysku.

Obszary pliku, nie wymienione w dodatkowej bazie danych pokazanej w tabeli 1, nie były wykorzystywane w ogóle. Numer dnia jest po prostu określany przez licznik, odliczający dni od arbitralnie wybranej daty początkowej, w tym przypadku 1 stycznia 1900r. W bardziej złożonych systemach można wykorzystywać datę i czas. Na fig. 2 przedstawiono plik w postaci diagramu, na którym zakreskowane pola reprezentują dane, które były zapisane lub odczytane, natomiast białe obszary reprezentują dane, do których dostęp nie był wykorzystywany.

Kroki, wykonywane podczas dostępu do pliku, zostały przedstawione na fig. 3. Krok 20 wskazuje na występowanie żądania dostępu. Może to być żądanie zapisu lub żądanie odczytu. Plik jest najpierw identyfikowany w kroku 22, za pomocą pierwszego zespołu identyfikacji, a następnie określana jest długość dostępu i początkowy ofset w kroku 24, za pomocą drugiego zespołu identyfikacji części pliku. Te dane są zapisywane w dodatkowej bazie danych w kroku 26, za pomocą zespołu tworzenia bazy danych, razem z datą, jak pokazano w tabeli 1. Korzystnie, krok 26 powinien zawierać operację konsolidacji, zapewniającą odcięcie nadmiarowej informacji w dodatkowej bazie danych. Na przykład późniejszy dostęp może zdublować lub pokryć się z poprzednimi dostępami. Po wykonaniu wszystkich kroków zostaje zrealizowane pierwotne żądanie dostępu w kroku 28, za pomocą zespołu realizacji dostępu i podprogram jest skończony w kroku 30.

Kroki te są wykonywane dla każdej realizacji dostępu i tak, 10 kwietnia, rozważany plik ma długość 175 bajtów i zawiera siedem rekordów, przy czym dodatkowa baza danych ma postać jak przedstawiono w tabeli 1. Rekordy które nie były wykorzystywane podczas okresu obserwacji (siedemdziesiąt dziewięć dni) kandydują oczywiście do archiwizacji.

Załóżmy, że zdecydowano przekazać do archiwizacji wszystkie rekordy, które nie były wykorzystywane przez ostatnie sześćdziesiąt dni. Rekordy są sortowane przy wstępnym założeniu, że cały plik jest przeznaczony do przesunięcia do pamięci rezerwowej. Dodatkowa baza jest przeszukiwana w celu znalezienia rekordów o numerze dnia większym lub równym 34739 (34739 oznacza 60 dni przed 10 kwietnia, mającym numer 34799). Każdy rekord, dla którego numer dnia spełnia powyższe kryterium, jest identyfikowany, a części pliku zawierające go są odpowiednio zaznaczane, tak aby nie podlegały migracji (przesunięciu).

182 609

Z czterech rekordów wykorzystywanych między 1 stycznia a 10 kwietnia 1995r. tylko dwa ostatnie, z 15 lutego i 3 kwietnia 1995r., mają numer dnia wynoszący co najmniej 34739. Tak więc tylko dwa ostatnie rekordy należy zatrzymać, przeznaczając do migracji (przesunięcia) pozostałą część pliku - te fragmenty które są zdefiniowane jako bajty 0-74 oraz bajty 100-149. Ilustruje to diagram pokazany na fig. 4, gdzie zakreskowano obszary odpowiadające pozostawianym rekordom, natomiast obszary odpowiadające rekordom przesuwanym pozostawiono białe. Obszary pliku, zawierające przesuwane dane są teraz kopiowane do rezerwowej pamięci przy użyciu normalnych procedur hierarchicznego zarządzania pamięcią (HSM). Szczegóły dotyczące długości i lokalizacji każdego rekordu są określane przez system HSM dla ułatwienia ich późniejszego odzyskania. Co więcej, dodatkowa baza danych może podlegać edycji w celu usunięcia każdej ścieżki rekordów mających numer dnia niższy niż 34739, dzięki czemu unika się niekontrolowanego wzrostu objętości dodatkowej bazy danych.

Aby uzyskać korzyści płynące z przesunięcia nieużywanych rekordów do rezerwowej pamięci należy zwolnić przestrzeń zajmowaną przez te same rekordy na dysku. Realizuje się to przez rozrzedzenie pliku. Innymi słowy rekordy podlegające przesunięciu są zastępowane przerwami. Przestrzeń dysku dotychczas zajmowana przez nadmiarowe rekordy jest odzyskana, bowiem przerwy nie zajmują miejsca. Operacja ta nie zmienia logicznej długości pliku, przy założeniu, że rekord mający najwyższą wartość ofsetu nie został zarchiwizowany, natomiast liczba bieżących danych zostaje zredukowana, zwalniając miejsce dla nowych danych.

Rozrzedzony plik może być przygotowany w następujący sposób. Załóżmy, że system zawiera tablicę alokacji plików FAT, w której przestrzeń dyskowa jest wygodnie podzielona na bloki po 25 bajtów. Stąd, dla zapisu rozważanego pliku z 10 kwietnia 1995r. o rozmiarach 175 bajtów potrzeba siedmiu bloków. Plik może być rozmieszczony w następujący sposób:

Tabela 2

Zapis	Połączenie z następnym blokiem	Logiczny adres lokalny
Katalog	1	0
1	2	25
2	3	50
3	4	75
4	5	100
5	6	125
6	7	150
7	-1	-1

Pierwszy zapis jest zapamiętany w strukturze katalogu. Każdy blok na dysku dysponuje zapisem w tablicy, który wskazuje położenie bloku zawierającego następną część pliku. Na przykład drugi blok zawiera zapis łączący go z trzecim blokiem, gdzie można znaleźć część pliku przy ofsecie 50 bajtów. Jedynie siódmy blok ma ujemny zapis (-1), wskazujący że jest to ostatni blok zawierający dane z pliku.

W niniejszym przykładzie plik jest zapamiętany w kolejnych blokach 1 do 7, ale w praktyce równie dobrze bloki mogą być rozmieszczone przypadkowo, z przerwami między sobą. Tablica alokacji musi zostać dostosowana do uwolnienia przestrzeni dyskowej używanej przez przesunięte rekordy, innymi słowy należy usunąć z pliku bajty 0 do 74 oraz 100 do 149. Pierwszy obszar jest zajęty przez bloki 1, 2 i 3, a drugi przez bloki 5 i 6. Po usunięciu danych z tych bloków pozostałe zapisy pliku są modyfikowane w sposób umożliwiający zachowanie łańcucha zapisów. Tak więc zmodyfikowana tablica alokacji przyjmuje postać:

182 609

Tabela 3

Zapis	Wskaźnik następnego bloku	Logiczny adres lokalny
Katalog	4	75
1	0	0
2	0	0
3	0	0
4	7	150
5	0	0
6	0	0
7	-1	-1

Każdy z bloków 1,2, 3, 5 i 6 dysponuje zapisem zerowym (0), wskazującym, że obecnie nie zawierają danych. Na podstawie zmodyfikowanej tablicy alokacji system operacyjny natychmiast może zdecydować, że pierwszym alokowanym blokiem pliku jest blok 4, zawierający dane pod logicznym adresem lokalnym 75 i że następny (i ostatni) blok danych jest zapamiętany w bloku 7 i zawiera dane pod logicznym adresem lokalnym 150. Niektóre systemy operacyjne nie pamiętają logicznego adresu pierwszego alokowanego bloku, który w związku z tym nie może być zwolniony w tych systemach.

Dokładny sposób usuwania nie jest ważny. Istotne jest to, że przestrzeń twardego dysku zajmowana przez przesunięte bloki staje się dostępna do użytku. W powyższym przykładzie przyjęto dla uproszczenia, że rozmiary bloków i żądań zapisu/odczytu wynoszą 25 bajtów oraz że wszystkie żądania trafiają akurat na granice bloków. W praktyce rozmiary alokowanych bloków są wielokrotnością 512 bajtów, a długość i położenie żądań zapisu/odczytu zmieniają się w znaczący sposób. Ponieważ zwalniane (usuwane) mogą być tylko całe bloki, system musi być tak używany, aby tylko obszary danych reprezentujące całe bloki mogły być przesuwane i zwalniane. Ponieważ duże pliki zazwyczaj zawierają wiele tysięcy bloków, to powyższe ograniczenie rzadko ma istotne znaczenie.

Powyższe kroki są zilustrowane w sieci działań, pokazanej na fig. 5. Krok 40 wskazuje początek operacji rezerwowania. Na wstępie żądany plik jest identyfikowany, w kroku 42, za pomocą zespołu identyfikacji pliku. Następnie kierowane jest zapytanie o dodatkową bazę danych w kroku 44, za pomocą zespołu identyfikacji części pliku, dla odróżnienia tych bloków, do których był realizowany dostęp od czasu oznaczonej daty, od tych do których nie był realizowany dostęp. W kroku 46 identyfikowane są te bloki, do których nie był realizowany dostęp od czasu oznaczonej daty. Może się zdarzyć, że niedostępne bloki były już rezerwowane jako część zwykłej rutynowej operacji. Zazwyczaj rezerwowane są one więcej niż jeden raz. Poza tym, nie występuje potrzeba przemieszczania ich, lub ponownego rezerwowania. Jednak konieczne jest przeniesienie do pomocniczej pamięci tych bloków, jeśli wymagana rezerwa jeszcze nie istnieje. Bloki te mogą być identyfikowane przez znakowanie. Czy są to bloki przeznaczone do przeniesienia które są oznakowane, czy te które nie są, należą do oprogramowania tak długo, dokąd są one prawidłowo odróżnione. W kroku decyzyjnym 48 dokonuje się określenia czy jest to wystarczające, na przykład trzy występujące już rezerwy. Jeśli nie, wówczas w kroku 50 oznakowane bloki są rezerwowane lub przenoszone. W kroku 52 obszar zajęty przez wszystkie niedostępne bloki zostaje zwolniony przez skorygowanie systemowej tablicy alokacji pliku dla konwersji pliku w plik rozrzedzony. Jeśli plik jest już plikiem rozrzedzonym, wówczas dodaje się jeszcze więcej przerw. Rutynowo jest wówczas zakończona w kroku 54.

Następnie ostateczne ustalenie, aby przerwać żądanie kolejnego odczytu pliku, aby określić czy żądanie dotyczy odczytu danych ruchomych. Jeśli nie ma zabezpieczenia wobec

182 609 przerwania żądań odczytu, system operacyjny mógłby powrócić albo do danych zerowych, albo wykazać błąd jeśli jest takie życzenie, aby odczytać dane ruchome, przy czym stosowne sygnały mogą być generowane automatycznie dla unieruchomienia żądanej informacji. Jeśli indywidualne żądania odczytu są małe, czas potrzebny do unieruchomienia danych jest krótki w porównaniu do nieuruchomienia całego pliku, ponieważ tylko dane rzeczywiście potrzebne będą wyszukiwane i odzyskiwane.

Operacja ta jest zilustrowana na fig.6. Krok 60 wskazuje początek odczytu pliku. Plik zostaje zidentyfikowany w kroku 62 a ofset początkowy i długość odczytu wydzielona w kroku 64 jak na fig.3. Następnie działanie przechodzi do kroku decyzyjnego 66, w którym przeglądana jest tablica alokacji pliku aby określić czy żądanie odczytu jest żądaniem odczytu danych w każdym bloku lub blokach, które mają być przemieszczone z zastosowaniem procedury według fig.5. Jeśli odpowiedzią na to pytanie jest NIE, wówczas działanie przechodzi do kroków 70, 72 i 74, które odpowiadają krokom 26, 28 i 30 z fig. 3. Jeśli jednak odpowiedź na to pytanie w kroku 66 jest TAK, to wymagane dane są najpierw unieruchamiane w kroku 68, przed działaniem przechodzącym do kroków 70, 72 i 74, jak uprzednio. Nie jest konieczne unieruchomianie całego bloku, a generalnie tylko rekordy, lub rekordy które są wymagane, zostaną unieruchomione. One mogą mieścić się wewnątrz jednego bloku, lub rozciągać się przez dwa lub więcej bloków.

Procedury z fig.3 i 6 wymagają aby dostęp do dysku był przerwany. Jak to osiągnąć będzie opisane w odniesieniu do fig.7 i 8. Jeśli tylko program żąda dostępu do pliku, przywołuje procedurę standardową która zapisuje dane na dysku. Ta procedura, która w przypadku systemu operacyjnego DOS jest znana jako funkcja przerwy 21 hex (INT21h), jest integralną częścią systemu operacyjnego. Odczyt dysku jest INT21h funkcja 3Fh, a zapis dysku jest INT21h funkcja 40h. Działanie wykonane przez procedurę zależy od parametrów wprowadzonych na początku procedury. Procedura ta jest przedstawiona na fig.7 jako INT21h, tworząca część systemu operacyjnego w systemowej mapie pamięci, punkt wejścia INT21h jest zaznaczony strzałką Aby przeprowadzić korzystny przykład sposobu według wynalazku, dodatkowy kod programowy zostaje dodany na poziomie interfejsu systemu operacyjnego, jak przedstawiono na fig.8. W praktyce, w środowisku DOS, może to być załadowane do komputera jako sterownik urządzenia używający plik CONFIG.SYS.

Dodany program działa na instrukcje dla zapisu danych, które są przemieszczone lub dodatkowo wprowadzone przez alternatywny zestaw instrukcji.

Z innymi systemami operacyjnymi jest konieczne przerwanie funkcji zapisu pliku w sposób analogiczny. Znane programy są dostępne dla przygotowania koniecznych procedur zastępujących powyżej opisane, a dotyczące systemu operacyjnego DOS.

Generalnie, rozwiązanie według wynalazku może być wprowadzone w wielu zmodyfikowanych sposobach i innych sposobach oraz systemach odmiennych niż te opisane i zilustrowane.

Sposób i system według wynalazku może być włączony w znany system częściowego rezerwowania pliku, w wyniku czego ta sama dodatkowa baza danych może być zastosowana do zanotowania modyfikacji do danych, aby odnotować realizację dostępu do danych. Jedyną różnicąjest to, że staje się konieczne zarejestrowanie w dodatkowej bazie danych czy dostępy były dostępami odczytu, czy dostępami zapisu. Znany system częściowego rezerwowania pliku odpowiada wejściom przyporządkowanych dostępów zapisu do dodatkowej bazy danych w czasie, gdy system HSM częściowego pliku według niniejszego wynalazku zlicza zarówno realizacje dostępu odczytu jak i realizacje dostępu zapisu.

W innej modyfikacji system jest rozszerzony przez zwiększenie nieaktywnej wartości granicznej do trwałości dodatkowej bazy danych. Jak to przedstawiono na fig. 5 krok 44 jest zmodyfikowany tak, że zamiast rozróżniania bloków, do których był realizowany dostęp lub nie był realizowany dostęp od czasu oznaczonej daty, odróżnia się bloki, do których był realizowany dostęp, lub w ogóle nie był realizowany dostęp, to znaczy od kiedy dodatkowa baza danych była wstępnie utworzona lub wypełniona. W tym przypadku dodatkowa baza danych nie potrzebuje zapisu daty lub data/czas każdego dostępu.

182 609 11

Może to być stan, w którym nie jest pożądane przemieszczanie określonych części pliku, nawet jeśli one nie są dostępne. Można to stosować do pierwszego i możliwie ostatniego bloku w każdym pliku.

Jeśli wynalazek jest zastosowany w zupełnie nowym systemie operacyjnym, wówczas dodatkowa baza danych może z zasady być połączona z tablicą alokacji plików. Jednak korzystnym jest utrzymać je osobno.

182 609

FIG. 7

PUNKT NEJŚCIA24 h

SYSTEM operacyjny Ό05

FIG. 8

182 609

FIG. 6 (80ZP0CZNIJ odczyt l ρυκυ

IDEKIYFIKUj PUK1^-62

PODAJ β0Ζ8%ΖΥΝΑ1/£Υ OFSET l DŁUGOŚĆ ODCZYTU

NIE

TAK

RUCHOMEGO

SPRAWDŹ ΤΛΒΜΟξ A6Y USTALIĆ CZY JEST

WYMAGANY ODCZYT BLOKU

BLOKI NIERUCHOME

WPROWADŹ Z4PI5 DOSTĘPU DO PUKU N DOOkTKO^ bazie danych, konsolidacja DUPUKĄTOW

I ZACHODZI

WYKONAJ ODCZYT /^7? PLIKU PIECNOTNESO

182 609

FIG. 5

182 609

FIG. 3

182 609

FIG. 2

25 50 75 100 125 150 17C

3U/TE6O 15 LUTEGO 215iKZNiA 3KHIETNW

FIG. 4

25 50 75 100 125 150 17Ł

I I I F77A

LUTEGO 3 KWIETNIA

Departament Wydawnictw UP RP. Nakład 60 egz.

Cena 4,00 zł.

Claims

Zastrzeżenia patentowe

1. Sposób realizacji dostępu do danych zapamiętanych w systemie komputerowym, z założeniem hierarchicznego zarządzania pamięcią, wyposażonym w pamięć swobodnego dostępu, jednostkę centralną główną pamięć masową pomocniczą pamięć archiwizacji oraz urządzenie archiwizujące dane zawarte w systemie komputerowym, przeprowadzany w etapach, w których w trybie normalnej pracy doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej wyszukiwanie dostępu do danych zapamiętanych w głównej pamięci masowej generując przynajmniej żądanie odczytu, identyfikuje się plik do którego dostęp jest żądany, przy czym plik składa się z części pliku, identyfikuje się części pliku w pliku do którego potrzebny jest dostęp i realizuje się dostęp do części pliku, przy czym podczas realizacji dostępu przegląda się tablicę alokacji plików określającą położenie części pliku w głównej pamięci masowej, sprawdza się czy części pliku znajdują się w pamięci masowej i jeśli tak, to wyznacza się ich położenie, natomiast w trybie archiwizacji doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej archiwizację, w pomocniczej pamięci archiwizacji, wybranych danych zapamiętanych w głównej pamięci masowej i zwalnia się miejsce w głównej pamięci masowej, archiwizuje się, w pomocniczej pamięci archiwizacji, przynajmniej niektóre części pliku zapamiętane w głównej pamięci masowej do których dostęp nie był realizowany i zwalnia się miejsce w głównej pamięci masowej zajmowane przez te części pliku, do których dostęp nie był realizowany, ale które zostały zarchiwizowane i zachowuje się te części pliku w głównej pamięci masowej, do których dostęp był zrealizowany, zaś w trybie odzyskiwania doprowadza się instrukcje zapamiętane w pamięci swobodnego dostępu do jednostki centralnej i nakazuje się jej odzyskanie wybranych, zarchiwizowanych danych z pomocniczej pamięci archiwizacji, i przesłanie do głównej pamięci masowej dla realizacji dostępu, przy czym jeśli żądane części pliku nie znajdują się w głównej pamięci masowej, odzyskuje się żądane części pliku z pomocniczej pamięci archiwizacji i przesyła się do głównej pamięci masowej dla realizacji dostępu, znamienny tym, że w trybie normalnej pracy tworzy się bazę danych identyfikującą położenie części pliku do których dostęp ma być zrealizowany, przy czym same części pliku znajdują się poza bazą danych, natomiast w trybie archiwizacji wyznacza się, na podstawie bazy danych, położenia tych części pliku, do których dostęp był zrealizowany.
2. Sposób według zastrz. 1, znamienny tym, że jako części pliku stosuje się bloki odpowiadające blokom elementarnym zidentyfikowanym w tablicy alokacji plików.
3. Sposób według zastrz. 1, znamienny tym, że za pomocą bazy danych dodatkowo określa się czy dostęp jest dostępem zapisu czy dostępem odczytu.
4. Sposób według zastrz. 1, znamienny tym, że tworzy się bazę danych która identyfikuje części pliku do którego ma być zrealizowany dostęp oraz datę lub datę/czas w którym, dostęp został zrealizowany.
5. Sposób według zastrz. 4, znamienny tym, że podczas identyfikacji części pliku do których zrealizowano dostęp lub podczas archiwizacji, identyfikuje się na podstawie bazy danych części pliku do których był zrealizowany dostęp od czasu zanotowanej daty oraz części pliku do których dostęp nie był zrealizowany od czasu zanotowanej daty, przy czym podczas archiwizacji archiwizuje się do pomocniczej pamięci archiwizacji przynajmniej określone części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty, a ponadto zwalnia się w głównej pamięci masowej miejsce zajmowane przez te części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty i które zostały zarchiwizowane w pomocniczej pamięci archiwizacji, a zachowuje się w głównej pamięci masowej te części pliku, do których był zrealizowany dostęp od czasu zanotowanej daty.

182 609
6. Sposób według zastrz.5, znamienny tym, że podczas archiwizacji i zwalniania miejsca archiwizuje się i usuwa się te części pliku, do których nie był zrealizowany dostęp od czasu zanotowanej daty i już tworzyły kopię zapasową określoną ilość razy.
7. Sposób według zastrz.6, znamienny tym, że podczas zwalniania miejsca w głównej pamięci masowej, koryguje się tablicę alokacji plików.
8. Sposób według zastrz.4, znamienny tym, że podczas tworzenia bazy danych konsoliduje się bazę danych i usuwa się informacje nadmiarowe.

* * *