WO2022240318A1

WO2022240318A1 - Способ управления системой хранения данных и система хранения данных

Info

Publication number: WO2022240318A1
Application number: PCT/RU2022/050121
Authority: WO
Inventors: Светлана Викторовна ЛАЗАРЕВА
Original assignee: Общество с ограниченной ответственностью "РЭЙДИКС"
Priority date: 2021-05-13
Filing date: 2022-04-08
Publication date: 2022-11-17

Abstract

Изобретение относится к системе хранения данных и управлению этой системой. Система хранения данных включает оперативную память, параллельный SSD-кэш, разделенный на первую группу блоков на запись (RWC) и вторую группу блоков на чтение (RRC), накопитель на жестких дисках, детектор запросов и анализатор частоты обращений на чтение данных. Способ позволяет разделить запросы на случайные и последовательные как при операциях записи, так и при операциях чтения и, в зависимости от вида запроса, направить в различные виды памяти. При заполнении в SSD-кэше всех свободных групп первой группы блоков на запись или второй группы блоков на чтение производят вытеснение данных. Из первой группы блоков на запись (RWC) вытесняют давно не используемые данные. Из второй группы блоков на чтение (RRC) освобождают данные из блока данных, которые имеют наименьшую интенсивность использования с учетом числа пережитых вытеснений данных из блока за определенный период времени.

Description

1

СПОСОБ УПРАВЛЕНИЯ СИСТЕМОЙ ХРАНЕНИЯ ДАННЫХ И СИСТЕМА

ХРАНЕНИЯ ДАННЫХ

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к системе хранения данных и управлению этой 5 системой, включающей операционную память, параллельный SSD-кэш и накопитель на жестких дисках.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Основные преимущества систем хранения данных с SSD-кэшем и накопителем на жестких дисках - высокая производительность операций 10 ввода-вывода, обеспечиваемая твердотельными накопителями (SSD), и возможность длительной работы, которую гарантируют дисковые накопители (HDD). При этом такие системы требуют особых алгоритмов кэширования, берущих во внимание особенности используемого кэш -устройства - SSD.

Известен патент US9128847, публикация 08.09.2015, МПК G06F-003/04, 15 в котором описано устройство управления кэш-памятью системы, включающей контроллер, SSD-кэш и накопитель на жестких дисках, при этом SSD-кэш разбит на два блока памяти. Способ управления кэш памятью предусматривает, что при превышении определенного порога данные из первого блока SSD-кэша переписываются или во второй блок SSD-кэша или в 20 накопитель на жестких дисках.

Известен патент KR101675694, публикация 23.11.2016, МПК G06F- 003/06. В патенте описан способ замены блока SSD в зависимости от популярности блока. Дисковая система содержит SSD в качестве кэша и память на жестких дисках HDD. Способ предусматривает определение 25 наименее популярного блока SSD на основе времени пребывания данных и количества запросов на блок и исключения его из очереди SSD. Изобретение обеспечивает предотвращение загрязнения SSD-кэша и замены блока SSD, имеющего высокую частоту совпадений. Кроме того, сокращаются операции записи SSD за счет уменьшения частоты обмена блоками, тем самым зо продлевая срок службы SSD. 2

Наиболее близким аналогом является заявка US20180032266, публикация 01.02.2018, МПК G06F-003/06, описывающая способ управления системой хранения. Система хранения содержит SSD-кэш и накопитель на жестких дисках, при этом разделяют SSD-кэш на блоки памяти одинакового 5 размера и формируют из этих блоков первую группу блоков на запись и вторую группу блоков на чтение. Если запрос ввода-вывода является запросом на чтение, сохранение целевых данных из запоминающего устройства осуществляется в первую группу устройств кэш-памяти; если запрос ввода- вывода является запросом на запись, сохранение целевых данных во второй 10 группе устройств кэш-памяти.

Использование твердотельных накопителей в качестве кэш-устройств с ограниченным количеством циклов перезаписи может значительно ускорить их износ из-за использования традиционных алгоритмов кэширования. Таким образом, гибридные системы хранения данных, использующих SSD и память 15 на жестких дисках, требуют новых алгоритмов кэширования, позволяющих оптимально использовать гибридную структуру систем хранения.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Техническим результатом изобретения является повышение производительности системы хранения данных и увеличение ее строка 20 службы за счет оптимального использования SSD-кэша.

Способ управления системой хранения данных, которая включает оперативную память, параллельный SSD-кэш и накопитель на жестких дисках, содержит операции, представленные ниже.

Разделяют SSD-кэш на блоки памяти одинакового размера и 25 формируют из этих блоков первую группу блоков на запись (RWC) и вторую группу блоков на чтение (RRC).

Получают запрос записи или чтения данных.

- при запросе на запись данных определяют вид запроса - последовательный или случайный. Данные случайных запросов записывают в зо свободные блоки памяти первой группы блоков на запись SSD-кэша, а последовательные запросы записывают на накопитель на жестких дисках; 3

- при запросе на чтение данных определяют вид запроса - последовательный или случайный. При последовательном запросе на чтение определяют место нахождения данных и считывают их. При случайном запросе на чтение определяют место нахождения данных и считывают их, и

5 если данные хранились в накопителе на жестких дисках, то анализируют их на частоту обращений на чтение данных и, при частоте обращений больше двух, данные из накопителя на жестких дисках переписываются во вторую группу блоков на чтение SSD-кэша.

При заполнении всех свободных групп первой группы блоков на запись 10 или второй группы блоков на чтение SSD-кэша производят вытеснение данных,

- при этом последовательно вытесняют данные в накопитель на жестких дисках из первой группы блоков на запись (RWC),

- а из второй группы блоков на чтение (RRC) вытесняют данные, 15 которые имеют наименьшую интенсивность записи с учетом числа пережитых вытеснений данных из блока за определенный период времени.

В частности, предварительно разделяют SSD-кэш на блоки памяти размером К мегабайт.

Кроме того, запись данных осуществляют в блоки памяти SSD-кэша в 20 виде последовательной записи.

Помимо этого, при осуществлении запроса на запись проверяют, хранятся ли данные запроса в SSD-кэше и, при их наличии, данные обновляют.

При этом, случайные запросы более М килобайт записывают в 25 накопитель на жестких дисках.

Кроме того, при получении запроса на чтение предварительно проверяют, где находится запрос и при наличии частей запроса одновременно в RAM, SSD-кэше, или HDD, разбивают запрос на части и каждую часть считают отдельным запросом. зо Кроме этого, при последовательном запросе на чтение данные считывают или с оперативной памяти или с накопителя на жестких дисках. 4

В частности, освобождение данных из второй группы блоков на чтение (RRC) SSD-кэша производят, когда нет свободных блоков памяти кроме текущего.

Кроме того, свободные блоки памяти первой или второй группы блоков 5 памяти SSD-кэша передают в другую группу блоков памяти SSD-кэша.

Помимо этого, вытеснение данных из SSD-кэша производят целыми блоками.

Система хранения данных включает детектор запросов на запись и чтение данных, подключенный к оперативной памяти, соединенной с 10 параллельным SSD-кэшем и накопителем на жестких дисках. При этом, SSD- кэш разделен на блоки памяти одинакового размера и включает в себя первую группу блоков на запись (RWC) и вторую группу блоков на чтение (RRC). SSD- кэш подключен также к накопителю на жестких дисках. При этом, система содержит анализатор частоты обращений на чтение данных, подключенный 15 по входу к детектору запросов на запись и чтение данных, а по выходам к оперативной памяти и SSD-кэшу.

В данной заявке используются следующие термины.

Блок - Логическое пространство SSD-кэша, разбитое на блоки одинакового размера К мегабайт.

20 Число попаданий в кэш - это число запросов к конкретным данным, которые находятся в блоке данных в SSD-кэше.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На Фиг. 1 приведена блок-схема системы хранения данных.

На Фиг. 2 приведена структура SSD-кэша, содержащая первую группу 25 блоков на запись (RWC) и вторую группу блоков на чтение (RRC).

На Фиг. 3 приведена структура запроса.

На Фиг. 4 приведена структура первой группы блоков на запись (RWC) и второй группы блоков на чтение (RRC).

На Фиг. 5 приведена блок-схема процесса обработки запроса на чтение зо На Фиг. 6 приведена блок-схема процесса обработки запроса на запись.

На Фиг. 7 приведена блок-схема процесса вытеснения из второй группы блоков на чтение (RRC). 5

На Фиг. 8 приведена блок-схема процесса вытеснения из первой группы блоков на запись (RWC).

ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

SSD-кэширование — это технология, при которой твердотельные 5 накопители используются в качестве буфера для часто запрашиваемых данных. Система определяет степень частоты обращения к данным и перемещает их на быстрый накопитель. Система хранения данных с SSD- кэшем дополняет HDD-массивы, повышая производительность за счет оптимизации случайных запросов. Устройство HDD-накопителей позволяет им 10 успешно справляться с последовательными запросами, но имеет естественное ограничение для работы со случайными запросами. Объем SDD-кэша при этом обычно составляет около 5-10% от емкости основной дисковой подсистемы.

В заявленной системе хранения данных и способе ее управления на 15 основе технологии RAIDIX реализован SSD-кэш, параллельный оперативной памяти, разделение входящих запросов на категории RRC (Random Read Cache) - запрос на чтение, и RWC (Random Write Cache) - запрос на запись, и использование нового способа вытеснения из группы блоков на чтение (RRC). Кроме того, повышение производительности системы хранения данных и 20 увеличение ее строка службы за счет оптимального использования SSD-кэша может быть еще увеличено за счет операций перераспределения соотношения количества свободных и используемых RRC и RWC блоков в зависимости от текущей нагрузки на систему хранения данных.

Система хранения данных (Фиг. 1) включает оперативную память 2, 25 параллельный SSD-кэш 4 на основе твердотельных накопителей и накопители 3 на жестких дисках (HDD). В системе с параллельным SSD- кэшем 4 оперативная память 2 используется отдельно от SSD-кэша 4.

На входе системы расположен детектор запросов 1 , который определяет вид запроса - случайный или последовательный зо Пространство SSD-кэша 4 разбито на блоки одинакового размера К мегабайт. С точки зрения эффективности использования SSD- кэша, чем меньше размер блока, тем лучше, но тем больше метаданных нужно хранить 6 в RAM-памяти. Наиболее оптимален размер блока 1 Гбайт. Запись данных осуществляют в блоки памяти SSD-кэша в виде последовательной (логструктурированной) записи.

Система хранения данных (Фиг. 1) также содержит анализатор 5 5 частоты обращений на чтение данных и размера входящего запроса на запись, подключенный по входу к детектору 1 запросов на запись и чтение данных, а по выходам - к оперативной памяти 2 и SSD-кэшу 4. С помощью анализатора 5 принимают решения о необходимости записи новых запросов в SSD- кэш, при этом в RWC попадают только случайные запросы размером 10 меньше М. В RRC попадают запросы, к которым повторно обратились за определенный момент времени, то есть с частотой больше двух.

Вход оперативной памяти RAM 2 подключен к детектору 1 запросов на запись и чтение данных.

SSD-кэш 4 (Фиг. 2) разделен на две функциональные категории: блоки 15 первой группы блоков 7 на запись (RWC) и второй группы блоков 6 на чтение (RRC). Для каждой из этих групп блоков есть свои правила попадания и вытеснения. На Фиг. 3 показано, что запрос 8 состоит из двух частей. Первую часть запроса занимают метаданные - информация о самом блоке данных и состоянии данных, которые записаны в нем. Остальное - это непосредственно 20 сами данные. Для первой группы блоков на запись (RWC) они представляют собой записи, в которых хранится информация в виде хэш-таблицы о том, где на жестком диске (HDD) находятся эти кэшированные данные.

На Фиг. 4 показан вид блоков первой группы блоков 6 на запись (RWC) и второй группы блоков 7 на чтение (RRC).

25 - Занятый блок, который полностью заполнен.

- Текущий блок, в который сейчас записываются запросы.

- Свободный блок, в котором нет данных.

- Вытесняемый, из которого в данный момент происходит процедура вытеснения. зо Свободные основные блоки 7 второй группы на чтение RRC могут при необходимости становится свободными блоками первой группы на запись RWC. При необходимости, свободные блоки 6 первой группы блоков RWC могут становится свободными блоками второй группы на чтение RRC. Это 7 зависит от выбранной политики - с наличием или отсутствием приоритета на чтение и запись. При отсутствии приоритета свободные блоки не перемещаются между RRC и RWC. При наличии приоритета на чтение или запись свободные блоки RRC/RWC становятся блоками RWC/RRC, если в 5 этом существует необходимость. Если приоритет установлен для операций и чтения и записи, то свободные блоки изначально не принадлежат RWC/RRC, а свободные блоки назначаются первым пришедшим запросам.

Блок-схема операций при обработке запроса на чтение приведена на Фиг. 5. При запросе на чтение 101 данных определяют вид запроса 102 - 10 последовательный или случайный. При последовательном запросе на чтение определяют место нахождения данных 103 и считывают их или из SSD 104 или RAM 105 или из HDD 106.

При случайном запросе на чтение определяют место нахождения данных. Проверяют, есть ли этот случайный запрос в RAM 107 и считывают из 15 оперативной памяти RAM 108. Проверяют, есть ли случайный запрос в SSD 109 и считывают его из SSD 110, или из HDD 112. Если данные считывались с SSD, в RRC меняется метрика блока, в который произошло попадание.

Если данные хранились на HDD, то анализируют 113 их на частоту обращений на чтение данных с помощью анализатора 5 (Фиг. 1 ) и, при частоте 20 обращений больше двух, данные из накопителя 3 на жестких дисках переписываются 114 во вторую группу блоков 7 на чтение SSD-кэша. Если во второй группе боков 7 на чтение нет свободных блоков 115, производятся операции освобождения блоков 116. При этом освобождается блок с наименьшей метрикой WE и пересчитываются метрики всех занятых блоков. 25 Обработка запроса на чтение завершается 117.

Следует также отметить, что запрос на чтение может относится к данным, которые находятся в разных частях базы данных, например, в RAM, SSD-кэше, или HDD. В этом случае прежде всех операций разбивают первичный запрос на части, в зависимости от того, к какой памяти они зо относятся и каждую часть считают отдельным запросом.

Блок-схема операций при обработке запроса на запись приведена на Фиг. 6. При запросе 201 на запись данных определяют вид запроса 202 - последовательный или случайный. Если запрос последовательный, 8 записывают запрос 203 на HDD 3. Далее проверяют 204, нет ли уже данного запроса в SSD-кэше 4. Если он есть, обновляют 205 части запроса в SSD- кэше 4. Далее проверяют, не превышает ли 206 размер запроса на запись параметра М. Если запрос превышает этот размер М, который 5 устанавливается, например, в 32 Кб - 64 Кб, то запрос записывается 211 на HDD. Если запрос небольшого размера, то проверяется 207, если свободное место в текущем блоке первой группы блоков RWC в SSD-кэше 4, то записывают 208 в текущий блок. Если места нет, то проверяют 209, есть ли свободный блок, и при наличии 210 свободного блока записывают в него, в 10 противном случае записывают на HDD 3.

Процесс вытеснения из второй группы блоков 7 на чтение (RRC) показан на Фиг. 7. Процесс вытеснения из второй группы блоков начинается, когда в группе нет свободных блоков, кроме текущего.

Первоначально определяют два блока с наименьшим числом 15 попаданий в кэш на блок. Определяют интенсивность использования каждого из выбранных блоков за определенный период времени. Интенсивность использования определяется на основе известной метрики «эффективность записи» Write Efficiency, предложенной в [1]

_{T l} ._ число попаданий в блок кэш

WE = - : — - ; число записей в блок кэш

20 где:

Число попаданий в кэш - число запросов к данным, находящимся в конкретном, выбранном блоке данных в SSD-кэша.

Число записей в блок кэш - число записей в блоке данных в SSD-кэше ко времени определения метрики WE.

25 Все блоки упорядочиваются по метрике WE и выбирается блок 301 с наименьшим значением. Теперь он считается свободным блоком 302.

После этого, для всех занятых блоков пересчитывается метрика WE значения 303. Для этого метрика WE для всех занятых блоков делится на число N - это параметр устаревания запросов. В реализованном алгоритме зо он равен 2. На этом процесс вытеснения заканчивается 304. 9

Процесс вытеснения из первой группы блоков на запись (RWC) раскрыт на Фиг. 8. Из первой группы блоков на запись (RWC) вытесняют давно не используемые данные в соответствии с политикой вытеснения 401. При этом могут использоваться алгоритмы вытеснения, основанные на принципе 5 «очереди», например, FIFO («первым пришёл - первым ушёл») (https://ru.wikipedia.org/wiki/FIFO). При выполнении вытеснения запросы в блоке упорядочивают 402 по возрастанию номера адресации, затем упорядоченные запросы записываются в HDD - 403. После этого 404 освобожденный блок получает статус свободного.

10 Совокупность всех операций (разбивка параллельного SSD-кэша на блоки памяти одинакового размера и формирование из этих блоков первой группы блоков на запись (RWC) и второй группы блоков на чтение (RRC); обработка запросов на запись и чтение и процессы вытеснения данных, различных для групп блоков SSD-кэша на чтение и запись) способа 15 управления системой хранения данных (включающую оперативную память, параллельный SSD-кэш и накопитель на жестких дисках) позволяет значительно увеличить производительность системы хранения данных и продлить срок использования SSD-накопителей.

Проведённые сравнительные эксперименты с известными схемами 20 гибридных систем хранения данных, которые включают оперативную память, параллельный SSD-кэш и накопитель на жестких дисках, показали, что прирост производительности при разных типах запросов составляет от 5 до 46 раз. При этом количество требуемых перезаписей на SSD-накопителях в заявляемом способе будет примерно в 6 раз меньше, чем во многих 25 традиционных системах хранения данных. Соответственно, в данной системе ресурс твердотельных накопителей используется значительно эффективнее, увеличивая срок их жизни.

ПРОМЫШЛЕННАЯ ПРИМЕНИМОСТЬ

Заявленные способ и устройство могут быть применены для зо эффективной работы с достаточно широким спектром задач и нагрузок в различных областях хранения данных. 10

Благодаря сортировке запросов и новым способам вытеснения данных, сглаживание пиков случайной нагрузки происходит быстрее и с меньшим влиянием на общую производительность системы.

[1] WEC: Improving Durability of SSD Cache Drives by Caching Write Efficient Data / Yunpeng Chai, Zhihui Du, Xiao Qin, David A Bader //IEEE T ransactions on Computers. — 2015. — Vol. 64, no. 11. — P. 3304- 3316

Claims

11

ФОРМУЛА ИЗОБРЕТЕНИЯ Способ управления системой хранения данных, которая включает оперативную память, параллельный SSD-кзш и накопитель нежестких дисках, при котором:

- разделяют SSD-кзш на блоки памяти одинакового размера и формируют из этих блоков первую группу блоков на запись (RWC) и вторую группу блоков на чтение (RRC);

- получают запрос записи или чтения данных;

- при запросе на запись данных определяют вид запроса - последовательный или случайный, и данные случайных запросов записывают в свободные блоки памяти первой группы блоков на запись SSD-кэша, а последовательные запросы записывают в накопитель на жестких дисках;

- при запросе на чтение данных определяют вид запроса, последовательный или случайный;

- при последовательном запросе на чтение определяют место нахождения данных и считывают их;

- при случайном запросе на чтение определяют место нахождения данных и считывают их, и, если данные хранились в накопителе на жестких дисках, то анализируют их на частоту обращений на чтение данных, и при частоте обращений больше двух, данные из накопителя на жестких дисках переписываются во вторую группу блоков на чтение SSD-кзша;

- при заполнении всех свободных групп первой группы блоков на запись или второй группы блоков на чтение SSD-кзша производят вытеснение данных,

- при этом последовательно вытесняют данные на накопитель на жестких дисках из первой группы блоков на запись (RWC),

- а из второй группы блоков на чтение (RRC) вытесняют данные, которые имеют наименьшую интенсивность записи с учетом числа пережитых вытеснений данных из блока за определенный период времени. 12 . Способ по n. 1 характеризуется тем, что предварительно разделяют SSD-кзш на блоки памяти размером К мегабайт. . Способ по п. 1 характеризуется тем, что запись данных осуществляют в виде последовательной записи в блоки памяти SSD-кзша. . Способ по п. 1 характеризуется тем, что при осуществлении запроса на запись проверяют, хранятся ли данные запроса в SSD-кэше, и при их наличии данные обновляют. . Способ по п. 1 характеризуется тем, что случайные запросы более М килобайт записывают в накопитель на жестких дисках. Способ по п. 1 характеризуется тем, что при получении запроса на чтение предварительно проверяют, где находятся данные запроса и лри наличии частей запроса одновременно в RAM, SSD-кэше, или HDD, разбивают запрос на части и каждую часть считают отдельным запросом. . Способ по п. 1 характеризуется тем, что при последовательном запросе на чтение данные считывают или с оперативной памяти или с накопителя на жестких дисках. . Способ по п. 1 характеризуется тем, что вытеснение данных из второй группы блоков на чтение (RRC) SSD-кзша производят, когда нет свободных блоков памяти, кроме текущего. . Способ по п 1 характеризуется тем, что свободные блоки памяти первой или второй группы блоков памяти SSD-кзша передают в другую группу блоков памяти SSD-кзша. 0. Способ по п. 1 характеризуется тем, что вытеснение данных из SSD- кзша производят целыми блоками. 1. Система хранения данных включает детектор запросов на запись и чтение данных, подключенный к оперативной памяти, соединенной с параллельным SSD-кзшем и накопителем на жестких дисках, при этом SSD-кзш разделен на блоки памяти одинакового размера и включает в себя первую группу блоков на запись (RWC) и вторую группу блоков на чтение (RRC). SSD-кзш подключен также к накопителю на жестких дисках, при этом система содержит анализатор частоты обращений на 13 чтение данных, подключенный по входу к детектору запросов на запись и чтение данных, а по выходам к оперативной памяти и SSD-кзшу.