Контакты
Подписка
МЕНЮ
Контакты
Подписка

Взрывной рост трех V, или Большие данные и их хранение

В рубрику "IP-security" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Взрывной рост трех V, или Большие данные и их хранение

С легкой руки Клиффорда Линча термин "Большие данные" (Big Data) прочно вошел в лексикон не только ученых и бизнес-аналитиков, но и технических специалистов. Вшироком смысле термин Big Data означает обработку и хранение большого объема разрозненных данных, получаемых из различных источников. На сегодня мы можем говорить о взрывном росте трех V – Volume (объем хранимых данных), Velocity (скорость, с которой данные поступают) и Variety (разнообразие типов данных). Давайте рассмотрим этот вопрос применительно к задаче хранения и передачи большого объема данных
Николай Варламов
Руководитель службы сервисно-технической поддержки компании Synology

За последние пару лет объем данных, относимых к большим, увеличился с десятков терабайт до десятков петабайт, и я уверен, что это не предел. Из-за лавинообразного увеличения количества получаемой информации стандартные методы хранения и обработки становятся малоэффективными, что приводит к поиску новых решений.

Типовое подключение

С ростом компании осуществляются последовательные переходы между различными способами хранения данных. Практически сразу же происходит отказ от размещения данных непосредственно на тех серверах, где они обрабатываются, в пользу централизованных систем хранения. Однако у небольших организаций или домашних офисов потребности невелики, их можно удовлетворить несколькими обычными настольными сетевыми хранилищами с малым количеством дисков, хаотично расположенными в сети. В некоторых случаях для обеспечения отдельных пользователей дополнительным дисковым пространством применяют DAS – Direct-Attached Storage, подключаемые непосредственно к рабочим станциям пользователей.

Развитие бизнеса предъявляет новые требования не только к объему хранимой информации, но и к скорости доступа к ней: сетевые хранилища (NAS – Network Attached Storage) выбираются с поддержкой большего количества дисков, их производительность также возрастает, подключение к сети производится с использованием более высокоскоростных интерфейсов коммутаторов, что делает нецелесообразной хаотичную установку устройств в офисе. При дальнейшем росте компании кроме необходимости увеличения доступных дисковых объемов появляются также требования повышения отказоустойчивости, что приводит к необходимости размещения сетевых хранилищ в стойках специализированных серверных или центрах обработки данных (ЦОД). Зачастую стоечные решения имеют внутреннюю архитектуру, резервирующую некоторые особенно важные или часто выходящие из строя компоненты, такие как сетевые карты, блоки питания, вентиляторы.

Объем 72 Тбайт

К сожалению, двигаться по пути постоянного увеличения числа установленных в сетевое хранилище дисков и их объемов не представляется возможным. Обычно современные СХД в стоечном исполнении имеют высоту, равную одному, двум или трем юнитам, что зачастую соответствует 4, 8, 12 или 161 дискам формата 3,5" с интерфейсами SATA или SAS. Справедливости ради, стоит отметить, что некоторые NAS предназначены для работы с жесткими дисками или твердотельными накопителями размера 2,5". Существующие в настоящее время сетевые хранилища для корпоративного сегмента предназначены для установки в среднем не более 10–12 дисков, таким образом, максимальный объем дискового пространства, доступного пользователю, не превышает 72 Тбайт2 (при использовании 3,5" дисков емкостью 6 Тбайт). Такого объема хватит для большинства типовых задач, однако в мире больших данных он является смехотворным. Что же можно сделать для ее расширения?

Объем 636 Тбайт

Первое решение, которое обычно используют в ситуациях, подобных описанной выше, состоит в подключении специализированных дисковых полок (или корзин), как правило, устанавливаемых в непосредственной близости от основного хранилища (рис. 1).


Такие полки/корзины не имеют собственных сетевых интерфейсов и вычислительных мощностей и используются исключительно для размещения дополнительных жестких дисков либо твердотельных накопителей. Форм-фактор данных устройств часто совпадает с форм-фактором основного СХД, к которому подключаются от одной до восьми дисковых полок. Так, если NAS-устройство (10 дисков) поддерживает одновременную работу с восемью корзинами (12 дисков), то всего поддерживается до 106 дисковых устройств. Суммарный объем получаемого решения превышает 636 Тбайт.

Однако в мире больших данных даже такой внушительной на первый взгляд величины может оказаться недостаточно.

Объем до 300 Пбайт

Вторым применяемым решением является так называемое стекирование (рис. 2). У разных производителей сетевого оборудования реализация данного подхода различна. Суть его состоит в том, что в определенное место файловой системы "головного" устройства производится монтирование ресурсов другого хранилища, доступ к которым может производиться с помощью определенных протоколов файлового или блочного доступа (например, SMB/CIFS или iSCSI), количество таких удаленных хранящих узлов может достигать 512.


Суммарно подобное решение позволяет предоставить пользователю дисковое пространство объемом до 300 Пбайт.

У данного решения есть одно существенное ограничение: предоставляемое дисковое пространство не является непрерывным, то есть пользователям доступны несколько папок со столь большим суммарным объемом, однако создать файл, размер которого превышал бы объем дискового пространства одного подключенного хранилища, невозможно.

Дополнительная функциональность

В ситуациях, когда требуется большое непрерывное пространство, может быть применена технология горизонтального масштабирования. Данный подход состоит в объединении в кластер до 12 NAS-серверов, а система централизованного управления CMS позволяет выбрать удаленные жесткие диски этих устройств для использования в кластере хранения (рис. 3). Из 12 NAS (кластер) несколько СХД должно быть выделено для выполнения функций вычислительных серверов, занимающихся расчетом контрольных сумм пользовательских данных. Например, 9 NAS содержат пользовательские данные и 3 NAS служат в качестве серверов вычислений.


Количество вычислительных серверов влияет на производительность кластера. Если, например, при построении кластера применялось сетевое 12-дисковое хранилище вместе с двумя дисковыми полками/корзинами (по 12 дисков каждая), то построенный кластер будет иметь возможность хранить пользовательские данные на 324 дисках и использовать 108 дисков для резервирования, что при задействовании дисков объемом 4 Тбайт позволит перешагнуть рубеж в 1 Пбайт непрерывного дискового пространства.

Следует сказать, что на сегодня CMS существует лишь в виде бета-версии, а указанная схема имеет ограничение максимального объема в 1 Пбайт, однако в обозримом будущем такое ограничение должно быть устранено, что позволит пользователям сохранять и обрабатывать еще большие объемы данных. На мой взгляд, это весьма перспективная технология с огромным потенциалом по наращиванию возможностей и хранимых объемов.

Многообразие решений для Big Data

Современные системы хранения предоставляют пользователям разнообразные решения, позволяющие справиться со всевозрастающей нагрузкой и постоянно увеличивающимися объемами данных. К числу таких решений относится как использование дисковых полок/корзин, так и технология горизонтального масштабирования, позволяющая создать кластер из нескольких СХД, не только обеспечивающий увеличение объема хранимой информации, но и предоставляющий механизмы увеличения производительности и обеспечения отказоустойчивости. Стекирование или возможность подключения удаленных папок также окажутся весьма полезными при построении системы хранения для Big Data.

___________________________________________
1 В зависимости от производителя сетевого оборудования.
2 Зависит от выбранного типа массива RAID (Redundant Array of Independent Disks).

Опубликовано: Журнал "Системы безопасности" #5, 2014
Посещений: 7051

  Автор

Николай Варламов

Николай Варламов

Руководитель отдела сервисно-технической поддержки компании Synology

Всего статей:  5

В рубрику "IP-security" | К списку рубрик  |  К списку авторов  |  К списку публикаций