Инфраструктура

Безопасность и использование конфиденциальных данных

Предоставляем доступ к серверам с root доступом. Не используется многопользовательский доступ между несколькими клиентами с виртуализацией. Серверы с дисками NVME позволяют применять безопасное стирание диска для обеспечения безопасного стирания данных (применяется по умолчанию после каждого выключения сервера, но пользователь может сделать это так же и вручную).


Возможности наших GPU-серверов

Мы используем серверы DELL EMC и HPE. Некоторые важные доступные функции:
PLX коммутаторымежду CPU, GPU и NIC. Коммутатор PLX обеспечивает доступ к 16X PCIv3 слотам для каждого GPU и сетевой карты NIC. За счет этого обеспечивается возможность совместного использования памяти GPU между несколькими хостами с использованием 16x PCI-E. Эта функция особенно полезна для синзронизации весов нейронной сети при распределенном обучении и размере весов более 1 Гб.
Один хост. Все P100 и V100 карты подключены к одному CPU, даже если сервер имеет два CPU. Эта функция упрощает взаимосвязь между вашим программным обеспечением и доступом к графическому процессору без необходимости оптимизировать программное обеспечение для подключения нескольких CPU к нескольким GPU.
NVLINK. Все P100 и V100 GPU связаны между собой по технологии NVLINK со скоростью до 80 и 150 ГБ/с соответственно. Функция полезна для запуска и обучения неронных сетей где требуется частая синхронизация весов внутри одного хоста или требуется распараллеливание запуска модели между несколькими GPU.


Возможности нашего кластера GPU-серверов

Современные кластеры GPU требуют специальных технологий для удовлетворения потребностей новейших фреймворков.

RDMA (remote direct memory access) через Infinityband. Infinityband - это транспортная технология, которая используется вместо Ethernet и специально разработана для прямого доступа к памяти (RDMA). RDMA - это протокол доступа к памяти GPU, располженного на другом хосте. Классическая сетевая технология Ethernet имеет сравнительно высокие задержки в запросах на доступ к памяти из-за 4 очередей ЦП при обработке каждого запроса (2 на локальном хосте и 2 на удаленном). Если используется Infinityband и RDMA, где сетевой адаптер установлен в порту PCI-E коммутатора PLX, это позволяет отправлять запросы в память графического процессора другого узла без участия ЦП, поэтому коммуникация будет выглядеть следующим образом: GPU - PLX - IB Adapter - IB Switch - IB Adapter - PLX Switch - GPU. В этом случае обеспечивается минимально возможная задержка, а так же возможность транслировать обновленные веса обучаемой модели на все GPU в кластере с помощью аппаратной широковещательной трансляции Infinityband (ознакомиться с визуализацией от Microsoft для технологии DeepSpeed ссылка ). Наши серверы на базе SXM могут быть сгруппированы в кластер по запросу. Сетевые карты имеют поддерживают соединение на скорости 40 Гбс с протоколами Infinityband или Ethernet.


GPUs

Наш центр обработки данных оснащен графическими процессорами со следующими характеристиками:

GPU Type CUDA Cores Tensor Cores Memory Memory Bandwidth, GB/sec Half-precision performance, TFLOPS Single-precision performance, TFLOPS Double-precision performance, TFLOPS
GTX 1080ti 3584 - 11 GB GDDR5X 484 0.16 10.6 0.33
TESLA K80 (2 chips) 4992 - 24GB DDR5 480 N/A 8.73 2.91
TESLA P100 SXM2 3584 - 16GB HBM2 732 21.2 10.6 5.3
TESLA V100 SXM2 16 5120 640 16GB HBM2 900 31.4 15.7 7.8
TESLA V100 SXM2 32 5120 640 32GB HBM2 900 31.4 15.7 7.8