В последно време изкуственият интелект и по-специално езиковите модели с огромен брой параметри се превръщат в основен фокус на технологичната индустрия. Обикновено подобни модели изискват значителни хардуерни ресурси, включително множество графични процесори (GPU) и големи обеми бърза оперативна памет. Въпреки това, наскоро се появи интересен експеримент, който демонстрира възможността за изпълнение на 1-трилионен параметърен езиков модел (LLM) на система с един единствен GPU, използвайки Intel Optane памет тип DIMM като оперативна памет.
Какво се случи?
Потребител в Reddit сподели резултати от тестове с работна станция, оборудвана с 768GB Intel Optane Persistent Memory (PMem) DIMM модули. Тази памет, макар и по-бавна от традиционната DRAM, е значително по-евтина и предлага голям капацитет. Използвайки тази конфигурация, системата успя да стартира езиков модел с около 1 трилион параметри, постигащ скорост от приблизително 4 токена в секунда при локална инсталация на Kimi K2.5.
Защо това е важно?
Традиционно, изпълнението на огромни езикови модели изисква множество скъпи GPU-та и бърза оперативна памет, което ограничава достъпа до подобни технологии само за големи компании и изследователски институти. Използването на Intel Optane PMem като заместител или допълнение на DRAM позволява значително увеличаване на наличната памет при по-ниска цена, което може да направи възможно стартирането на големи модели на по-достъпни системи.
Това отваря нови перспективи за разработчици, изследователи и компании с ограничени бюджети, които искат да работят с големи езикови модели без необходимостта от мащабни хардуерни инвестиции. В същото време, макар скоростта на обработка да е по-ниска в сравнение с традиционните решения, възможността за работа с такъв мащабен модел на един GPU е впечатляваща.
По-широк контекст
Intel Optane PMem е технология, която съчетава характеристиките на постоянната памет и оперативната памет, предлагайки голям капацитет и относително ниска цена. В последните години тя намира приложение в сървърни и облачни среди, където големият обем памет е критичен. В контекста на изкуствения интелект, особено при големите езикови модели, нуждата от памет е една от основните пречки за изпълнение на локални системи.
Този експеримент показва, че с правилна конфигурация и оптимизации, Intel Optane PMem може да бъде ефективен компонент в хардуерната инфраструктура за AI, позволявайки по-широко разпространение на големи модели и потенциално стимулирайки иновации в областта на оптимизацията на паметта и изчисленията.
Какво може да последва?
Този пробив може да стимулира по-нататъшни изследвания и разработки в областта на използването на алтернативни видове памет за изкуствен интелект. Възможно е да видим нови хибридни системи, които комбинират DRAM и Intel Optane PMem за оптимално съотношение между цена, капацитет и производителност.
Освен това, разработчиците на софтуер за големи езикови модели могат да започнат да оптимизират алгоритмите си за работа с по-бавна, но по-голяма памет, което да доведе до по-ефективни и достъпни решения. В дългосрочен план това може да разшири възможностите за локално изпълнение на сложни AI модели, намалявайки зависимостта от облачни услуги и големи центрове за данни.
В заключение, използването на Intel Optane DIMM памет за стартиране на 1-трилионен параметърен езиков модел на един GPU представлява значима стъпка към демократизиране на достъпа до големи изкуствени интелекти и може да промени начина, по който се изграждат и използват AI системите в бъдеще.