SOhu – первый ASIC для трансформеров
Хотя NVIDIA B200 выглядит невероятно мощной, на самом деле лишь малая часть транзисторов в этом чипе занимается перемножением матриц. Эта операция является основной в нейронных сетях и выполняется тензорными ядрами, которых в H100 всего 528. В результате только около 3% транзисторов в H100 заняты этими вычислениями. Остальные 97% транзисторов отвечают за управление, обеспечение данных и вторичные функции.
Стартапу Etched удалось значительно сократить накладные расходы и увеличить количество вычислительных мощностей на чипе благодаря крайней специализации на запуске трансформеров. Эффективность использования вычислительных ресурсов (MFU) выросла до более чем 90%! Для сравнения, максимальная достигнутая эффективность на H100 чуть превышает 50%.
Результаты впечатляют – LLaMa 70B на одной ноде из 8 новых чипов sOhu обрабатывает полмиллиона токенов в секунду! Стартап недавно привлёк 120 миллионов долларов финансирования, так что релиз, надеемся, не за горами.