[ad_1]
Американський стартап Cerebras навчив найбільшу модель штучного інтелекту» на одному пристрої, оснащеному чіпом Wafer Scale Engine 2 (WSE-2) розміром із тарілку. Про це пише Tom’s Hardware.
“Використовуючи програмну платформу Cerebras (CSoft), наші клієнти можуть легко навчати сучасні мовні моделі GPT (такі як GPT-3 та GPT-J) з використанням до 20 млрд параметрів в одній системі CS-2”, – йдеться у заяві компанії.
За словами представників стартапу, технологія Cerebras Weight Streaming відокремлює обчислювальні ресурси, дозволяючи масштабувати пам’ять до будь-якого обсягу, необхідного для зберігання кількості параметрів, що швидко зростає, в робочих навантаженнях ІІ.
“Робота на одному CS-2 моделі налаштовуються за кілька хвилин, і користувачі можуть швидко перемикатися між ними всього кількома натисканнями клавіш”, – йдеться в заяві.
Зберігання до 20 моделей обробки природної мови з мільярдами параметрів в одному чіпі значно знижує накладні витрати на навчання та масштабування за допомогою тисяч графічних процесорів, вважають у компанії. Вони додали, що це один із найболючіших аспектів робочих навантажень NLP, на виконання якого йдуть місяці.
Чіп Wafer Scale Engine 2 побудований за 7-нм техпроцесом, містить 850 000 ядер, має 40 ГБ вбудованої пам’яті з пропускною здатністю 20 ПБ/с і споживає близько 15 кВт.
Нагадаємо, у квітні 2021 року Cerebras представила процесор WSE-2, призначений для розрахунків у галузі машинного навчання та штучного інтелекту.
У серпні компанія створила суперкомп’ютер CS-2. Установка на базі чіпів WSE-2 здатна навчити ІІ-модель зі 120 млрд параметрів.
У травні 2022 року рейтинг найпотужніших суперкомп’ютерів світу Top500 очолила американська система Frontier, розроблена Ок-Ріджською національною лабораторією Це перша установка, що досягла пікового значення 1,1 екзафлопса в тесті Linmark.
Підписуйтесь на новини ForkLog у Telegram: ForkLog AI – Всі новини зі світу ІІ!
Знайшли помилку у тексті? Виділіть її та натисніть CTRL+ENTER
[ad_2]
Source link