Инфраструктура
Безопасность и использование конфиденциальных данных
Предоставляем доступ к серверам с root доступом. Не используется многопользовательский доступ между несколькими клиентами с виртуализацией. Серверы с дисками NVME позволяют применять безопасное стирание диска для обеспечения безопасного стирания данных (применяется по умолчанию после каждого выключения сервера, но пользователь может сделать это так же и вручную).
Возможности наших GPU-серверов
Мы используем серверы DELL EMC и HPE. Некоторые важные доступные функции:
PLX коммутаторымежду CPU, GPU и NIC. Коммутатор PLX обеспечивает доступ к 16X PCIv3 слотам для каждого GPU и сетевой карты NIC. За счет этого обеспечивается возможность совместного использования памяти GPU между несколькими хостами с использованием 16x PCI-E. Эта функция особенно полезна для синзронизации весов нейронной сети при распределенном обучении и размере весов более 1 Гб.
Один хост. Все P100 и V100 карты подключены к одному CPU, даже если сервер имеет два CPU. Эта функция упрощает взаимосвязь между вашим программным обеспечением и доступом к графическому процессору без необходимости оптимизировать программное обеспечение для подключения нескольких CPU к нескольким GPU.
NVLINK. Все P100 и V100 GPU связаны между собой по технологии NVLINK со скоростью до 80 и 150 ГБ/с соответственно. Функция полезна для запуска и обучения неронных сетей где требуется частая синхронизация весов внутри одного хоста или требуется распараллеливание запуска модели между несколькими GPU.
Возможности нашего кластера GPU-серверов
Современные кластеры GPU требуют специальных технологий для удовлетворения потребностей новейших фреймворков.
RDMA (remote direct memory access) через Infinityband. Infinityband - это транспортная технология, которая используется вместо Ethernet и специально разработана для прямого доступа к памяти (RDMA). RDMA - это протокол доступа к памяти GPU, располженного на другом хосте. Классическая сетевая технология Ethernet имеет сравнительно высокие задержки в запросах на доступ к памяти из-за 4 очередей ЦП при обработке каждого запроса (2 на локальном хосте и 2 на удаленном). Если используется Infinityband и RDMA, где сетевой адаптер установлен в порту PCI-E коммутатора PLX, это позволяет отправлять запросы в память графического процессора другого узла без участия ЦП, поэтому коммуникация будет выглядеть следующим образом: GPU - PLX - IB Adapter - IB Switch - IB Adapter - PLX Switch - GPU. В этом случае обеспечивается минимально возможная задержка, а так же возможность транслировать обновленные веса обучаемой модели на все GPU в кластере с помощью аппаратной широковещательной трансляции Infinityband (ознакомиться с визуализацией от Microsoft для технологии DeepSpeed ссылка ). Наши серверы на базе SXM могут быть сгруппированы в кластер по запросу. Сетевые карты имеют поддерживают соединение на скорости 40 Гбс с протоколами Infinityband или Ethernet.
GPUs
Наш центр обработки данных оснащен графическими процессорами со следующими характеристиками:
GPU Type | CUDA Cores | Tensor Cores | Memory | Memory Bandwidth, GB/sec | Half-precision performance, TFLOPS | Single-precision performance, TFLOPS | Double-precision performance, TFLOPS |
---|---|---|---|---|---|---|---|
GTX 1080ti | 3584 | - | 11 GB GDDR5X | 484 | 0.16 | 10.6 | 0.33 |
TESLA K80 (2 chips) | 4992 | - | 24GB DDR5 | 480 | N/A | 8.73 | 2.91 |
TESLA P100 SXM2 | 3584 | - | 16GB HBM2 | 732 | 21.2 | 10.6 | 5.3 |
TESLA V100 SXM2 16 | 5120 | 640 | 16GB HBM2 | 900 | 31.4 | 15.7 | 7.8 |
TESLA V100 SXM2 32 | 5120 | 640 | 32GB HBM2 | 900 | 31.4 | 15.7 | 7.8 |