Стартап от Маями твърди, че е преодолял ключово ограничение в големите езикови модели

Стартапът Subquadratic обяви, че е намерил решение на дългогодишен математически проблем, който забавя развитието на големите езикови модели (LLM). Ако твърденията им се потвърдят, това може да ускори изчислителните процеси и да намали разходите за обучение на такива модели.

В последните години големите езикови модели (LLM) като GPT и други трансформър-базирани системи се превърнаха в основен двигател на изкуствения интелект. Въпреки това, тяхното развитие е ограничено от изчислителни и математически предизвикателства, които забавят обучението и увеличават разходите. Наскоро стартапът Subquadratic, базиран в Маями, заяви, че е преодолял един от тези ключови проблеми, който е бил пречка почти десетилетие.

Какво се случи

Subquadratic излезе от „стелт“ режима миналия месец с твърдението, че е решил математическия „бутилкаут“ (bottleneck), който ограничава ефективността на големите езикови модели. Този проблем се отнася до сложността на изчисленията, необходими за обработка на огромни обеми данни и параметри, които характеризират LLM. Въпреки първоначалния скептицизъм от страна на експертите, компанията започна да публикува технически доказателства и демонстрации, които подкрепят техните претенции.

Защо това е важно

Големите езикови модели са изключително ресурсоемки – те изискват огромни изчислителни мощности и време за обучение, което прави разработката им скъпа и достъпна само за големи корпорации. Ако Subquadratic наистина е намерил начин да намали изчислителната сложност, това би могло да доведе до значително по-бързо и по-евтино обучение на LLM. Това от своя страна би отворило вратата за по-широко използване на тези технологии в различни индустрии и от по-малки компании.

По-широк контекст

Големите езикови модели се базират на трансформър архитектура, която въведе революция в обработката на естествен език. Въпреки това, тяхната мащабируемост е ограничена от алгоритмичната сложност на някои операции, като например вниманието (attention), което расте квадратично с дължината на входния текст. Много изследователи и компании работят върху оптимизации и алтернативни подходи, но досега не е имало радикално решение, което да промени фундаментално изчислителния модел.

Subquadratic твърди, че тяхното решение намалява тази сложност, което би могло да промени правилата на играта в областта. Ако това се потвърди и бъде прието от научната общност, то може да ускори развитието на по-големи и по-ефективни модели, както и да намали въглеродния отпечатък от обучението им.

Какво може да последва

Следващите стъпки ще включват независими проверки и по-широко публикуване на техническите детайли на решението на Subquadratic. Ако други изследователи потвърдят резултатите, това може да доведе до бързо внедряване на новите методи в индустрията. Възможно е да видим ново поколение езикови модели, които са по-бързи, по-евтини и по-екологични за обучение.

В същото време, успехът на Subquadratic може да стимулира конкуренцията и иновациите в сферата на изкуствения интелект, като насърчи и други компании и изследователи да търсят подобни пробиви в алгоритмичната ефективност.

Стартап от Маями твърди, че е преодолял ключово ограничение в големите езикови модели

Какво се случи

Защо това е важно

По-широк контекст

Какво може да последва

Източници

Видео по темата