Киберпротект. Дедупликация данных: простыми словами о технологии и сценариях использования




кнопка Прайс.png 
Киберпротект. Дедупликация данных: простыми словами о технологии и сценариях использования
6 апреля 2026

Введение

Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье Киберпротект простым языком разберет принципы работы дедупликации, её отличия от сжатия, а также рассмотрит практические сценарии использования  технологии.

Почему без дедупликации не обойтись: проблема клонов

Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.

Масштаб проблемы:

  • На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
  • Для полной резервной копии  данных офиса без оптимизации потребуется от 20 до 150 Тб.
  • С учетом всех копий объем может достигать 1 Пб.

Статистика показывает низкий процент уникальности данных:

  • Офисные ПК: ~50% уникальных данных.
  • Виртуальные машины: ~30%.
  • Файловые серверы: ~75%.

Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.

Что такое дедупликация данных простыми словами?

Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.

Как это работает: 4 этапа процесса

1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

blog66-1.png

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.

Основные виды дедупликации

Технологии классифицируются по уровню обработки, времени и месту выполнения. 

1. По уровню обработки данных

  • Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
  • Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.

2. По времени обработки

  • На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
  • Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.

3. По месту выполнения

  • На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
  • На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.

Дедупликация и сжатие: в чем разница?

Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

blog66-2.png

Рекомендация

Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.

Практические сценарии для бизнеса

Когда критична дедупликация:

  • Ежедневные инкрементальные резервные копии виртуальных машин.
  • Файловые серверы с множеством копий документов.
  • Почтовые архивы с повторяющимися вложениями.

Когда эффективно сжатие:

  • Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
  • Передача данных по каналам с низкой пропускной способностью.
  • Холодное хранение редко используемых архивов.

Поддержка дедупликации в Кибер Бэкапе

В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:

1) Глобальная дедупликация

  • Выполняется на узле хранения (формат архива TIB 11).
  • Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
  • Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.

2) Дедупликация на уровне архива (Рекомендуется)

  • Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
  • Не требует отдельного производительного сервера.
  • Оптимальна для большинства задач.

Более подробно об Узле хранения рассказывали на вебинаре Киберпротект «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.

Советы по эффективному использованию

  • Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
  • Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
  • Защищайте паролем само хранилище, а не отдельные резервные копии.

blog66-3.PNG

Заключение

Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием.

Автор: Алексей Федоров, менеджер по продуктовому маркетингу Киберпротект

Источник: перейти на сайт Киберпротект

Товары