В последните години големите езикови модели (LLM) като GPT и други трансформър-базирани системи се превърнаха в основен двигател на изкуствения интелект. Въпреки това, тяхното развитие е ограничено от изчислителни и математически предизвикателства, които забавят обучението и увеличават разходите. Наскоро стартапът Subquadratic, базиран в Маями, заяви, че е преодолял един от тези ключови проблеми, който е бил пречка почти десетилетие.
Какво се случи
Subquadratic излезе от „стелт“ режима миналия месец с твърдението, че е решил математическия „бутилкаут“ (bottleneck), който ограничава ефективността на големите езикови модели. Този проблем се отнася до сложността на изчисленията, необходими за обработка на огромни обеми данни и параметри, които характеризират LLM. Въпреки първоначалния скептицизъм от страна на експертите, компанията започна да публикува технически доказателства и демонстрации, които подкрепят техните претенции.
Защо това е важно
Големите езикови модели са изключително ресурсоемки – те изискват огромни изчислителни мощности и време за обучение, което прави разработката им скъпа и достъпна само за големи корпорации. Ако Subquadratic наистина е намерил начин да намали изчислителната сложност, това би могло да доведе до значително по-бързо и по-евтино обучение на LLM. Това от своя страна би отворило вратата за по-широко използване на тези технологии в различни индустрии и от по-малки компании.
По-широк контекст
Големите езикови модели се базират на трансформър архитектура, която въведе революция в обработката на естествен език. Въпреки това, тяхната мащабируемост е ограничена от алгоритмичната сложност на някои операции, като например вниманието (attention), което расте квадратично с дължината на входния текст. Много изследователи и компании работят върху оптимизации и алтернативни подходи, но досега не е имало радикално решение, което да промени фундаментално изчислителния модел.
Subquadratic твърди, че тяхното решение намалява тази сложност, което би могло да промени правилата на играта в областта. Ако това се потвърди и бъде прието от научната общност, то може да ускори развитието на по-големи и по-ефективни модели, както и да намали въглеродния отпечатък от обучението им.
Какво може да последва
Следващите стъпки ще включват независими проверки и по-широко публикуване на техническите детайли на решението на Subquadratic. Ако други изследователи потвърдят резултатите, това може да доведе до бързо внедряване на новите методи в индустрията. Възможно е да видим ново поколение езикови модели, които са по-бързи, по-евтини и по-екологични за обучение.
В същото време, успехът на Subquadratic може да стимулира конкуренцията и иновациите в сферата на изкуствения интелект, като насърчи и други компании и изследователи да търсят подобни пробиви в алгоритмичната ефективност.