Инфраструктура

Безопасность и использование конфиденциальных данных

Предоставляем доступ к серверам с root доступом. Не используется многопользовательский доступ между несколькими клиентами с виртуализацией. Серверы с дисками NVME позволяют применять безопасное стирание диска для обеспечения безопасного стирания данных (применяется по умолчанию после каждого выключения сервера, но пользователь может сделать это так же и вручную).

Возможности наших GPU-серверов

Мы используем серверы DELL EMC и HPE. Некоторые важные доступные функции:
PLX коммутаторымежду CPU, GPU и NIC. Коммутатор PLX обеспечивает доступ к 16X PCIv3 слотам для каждого GPU и сетевой карты NIC. За счет этого обеспечивается возможность совместного использования памяти GPU между несколькими хостами с использованием 16x PCI-E. Эта функция особенно полезна для синзронизации весов нейронной сети при распределенном обучении и размере весов более 1 Гб.
Один хост. Все P100 и V100 карты подключены к одному CPU, даже если сервер имеет два CPU. Эта функция упрощает взаимосвязь между вашим программным обеспечением и доступом к графическому процессору без необходимости оптимизировать программное обеспечение для подключения нескольких CPU к нескольким GPU.
NVLINK. Все P100 и V100 GPU связаны между собой по технологии NVLINK со скоростью до 80 и 150 ГБ/с соответственно. Функция полезна для запуска и обучения неронных сетей где требуется частая синхронизация весов внутри одного хоста или требуется распараллеливание запуска модели между несколькими GPU.

Возможности нашего кластера GPU-серверов

Современные кластеры GPU требуют специальных технологий для удовлетворения потребностей новейших фреймворков.

RDMA (remote direct memory access) через Infinityband. Infinityband - это транспортная технология, которая используется вместо Ethernet и специально разработана для прямого доступа к памяти (RDMA). RDMA - это протокол доступа к памяти GPU, располженного на другом хосте. Классическая сетевая технология Ethernet имеет сравнительно высокие задержки в запросах на доступ к памяти из-за 4 очередей ЦП при обработке каждого запроса (2 на локальном хосте и 2 на удаленном). Если используется Infinityband и RDMA, где сетевой адаптер установлен в порту PCI-E коммутатора PLX, это позволяет отправлять запросы в память графического процессора другого узла без участия ЦП, поэтому коммуникация будет выглядеть следующим образом: GPU - PLX - IB Adapter - IB Switch - IB Adapter - PLX Switch - GPU. В этом случае обеспечивается минимально возможная задержка, а так же возможность транслировать обновленные веса обучаемой модели на все GPU в кластере с помощью аппаратной широковещательной трансляции Infinityband (ознакомиться с визуализацией от Microsoft для технологии DeepSpeed ссылка ). Наши серверы на базе SXM могут быть сгруппированы в кластер по запросу. Сетевые карты имеют поддерживают соединение на скорости 40 Гбс с протоколами Infinityband или Ethernet.

GPUs

Наш центр обработки данных оснащен графическими процессорами со следующими характеристиками:

GPU Type	CUDA Cores	Tensor Cores	Memory	Memory Bandwidth, GB/sec	Half-precision performance, TFLOPS	Single-precision performance, TFLOPS	Double-precision performance, TFLOPS
GTX 1080ti	3584	-	11 GB GDDR5X	484	0.16	10.6	0.33
TESLA K80 (2 chips)	4992	-	24GB DDR5	480	N/A	8.73	2.91
TESLA P100 SXM2	3584	-	16GB HBM2	732	21.2	10.6	5.3
TESLA V100 SXM2 16	5120	640	16GB HBM2	900	31.4	15.7	7.8
TESLA V100 SXM2 32	5120	640	32GB HBM2	900	31.4	15.7	7.8