Китайские графические процессоры превзошли чипы Nvidia в 10 раз
Исследователи связывают повышение производительности компьютеров, оснащенных графическими процессорами (GPU) китайской разработки, с использованием новых методов оптимизации программного обеспечения. Однако эксперты отмечают, что одни только программы не смогут бесконечно компенсировать отставание в аппаратной части.
В областях, требующих больших вычислительных ресурсов, эта проблема стоит особенно остро. Ученые часто используют сложные компьютерные модели для решения таких задач, как защита от наводнений и анализ затоплений. Однако эти модели требуют много вычислительной мощности и времени, что ограничивает их использование. Для китайских ученых ситуация осложняется тем, что производство современных GPU, таких как Nvidia A100 и H100, контролируется иностранными компаниями, а экспорт этих чипов ограничен санкциями США. Кроме того, ограничения на использование экосистемы программного обеспечения CUDA от Nvidia на стороннем оборудовании сдерживают развитие независимых алгоритмов.
В поисках решения профессор Нань Тунчао из университета Хохай в Нанкине вместе с командой разработал метод параллельных вычислений, использующий несколько узлов и графических процессоров (multi-node, multi-GPU). Их цель — создать более эффективную суперкомпьютерную модель на базе отечественных процессоров. Результаты показывают, что эффективная передача данных и согласованная работа между узлами вычислительной системы крайне важны для снижения потерь производительности при использовании параллельных вычислений.
В 2021 году исследователи Национальной лаборатории Оук-Ридж представили модель прогнозирования наводнений TRITON, использующую архитектуру с несколькими узлами и графическими процессорами на суперкомпьютере Summit. Несмотря на использование 64 узлов, TRITON увеличил скорость обработки лишь в шесть раз. В то же время архитектура, разработанная Наном, объединяет несколько GPU в одном узле для компенсации ограничений китайского оборудования. Оптимизация обмена данными между узлами на уровне программного обеспечения снижает коммуникационные издержки.
Новая модель на базе отечественной платформы x86 с процессорами Hygon 7185 (32 ядра, 64 потока, тактовая частота 2,5 ГГц) и китайскими GPU, поддерживаемыми 128 ГБ памяти и пропускной способностью сети 200 Гбит/с, ускорила вычисления в шесть раз. Для этого потребовалось всего семь узлов, что на 89% меньше, чем у TRITON.
Для проверки модели команда смоделировала наводнение в водохранилище Чжуанли. Благодаря 200 вычислительным узлам и 800 графическим процессорам симуляция заняла всего три минуты, что позволило ускорить расчеты более чем в 160 раз. Быстрое моделирование наводнений помогает оперативно реагировать на угрозу, точнее прогнозировать развитие событий и предотвращать катастрофы. Результаты работы можно также использовать в гидрометеорологии, седиментологии (анализа осадочных горных пород) и изучении взаимодействия поверхностных и подземных вод. Код исследования доступен в открытом доступе.