Магия технологий. Как вдвое снизить расходы на хранение данных

Объем данных, хранимых человечеством увеличится в 5 раз за ближайшие три года. Разработчики облачных сервисов вынуждены искать пути снижения стоимости хранения и обработки этих данных

Мир испытывает потребность хранения все большего количества данных. По оценке IDC объем информации в компьютерных системах в 2017 году превысил 20 зеттабайт (зеттабайт — это 10 в 21 степени байт, или миллиард терабайт) и продолжает расти: к 2020 году данных будет уже более 100 зеттабайт, а к 2025 — больше 160 зеттабайт. Логично, что аналитики прогнозируют увеличение затрат на работу с ними: согласно прогнозу IDC, расходы на аналитику и хранение больших данных увеличатся в текущем году на 12,4% и составят $150 млрд, тогда как к 2020 году компании будут тратить уже $210 млрд, чтобы справиться с наплывом данных.

Популярным решением для снижения затрат стала гиперконвергенция: Gartner констатирует взрывной рост в данном сегменте — вложения в технологию за прошедший 2016 год увеличились почти на 80%. Аналитики прогнозируют, что такие системы займут 24% всего рынка интегрированных решений уже в 2019 году при практически «нулевом» старте в 2012 году. Причины применения этого подхода в кардинальном снижении расходов: гиперконнвергентные решения позволяют снизить TCO (расходы на поддержание функционирования) инфраструктуры более, чем в два раза.

Технологическая основа гиперконвергенции — это распределенное хранение данных и виртуализация. Распределенное хранение за счет программных средств объединяет все используемые в серверах диски в единый массив — пользователю все равно на каком диске, какая часть информации хранится, он управляет ею из одного места.. Распределенное хранилище позволяет получать нужный объем хранилища путем добавления дисков в сервера или заменой существующих на большие. Это гораздо дешевле, даже с учетом стоимости такого ПО, если сравнивать с сетевыми системами внешнего хранения данных, такими как SAN, NAS.

Виртуализация подразумевает объединение ресурсов и выделение внутри их виртуальных серверов: то есть объединяет процессорные мощности, память и диски в единый вычислительный центр, в котором выделяет ресурсы на запуск нужного количества копий операционной системы, программ и т.п. Такое решение позволяет почти на 100% загружать серверные мощности, а также упрощает обслуживание оборудования: например, со сломавшегося сервера нагрузка передается на другие, он просто обновляется по мере возможности без перерыва на восстановление данных.