Стартап от Маями твърди, че е преодолял ключово ограничение в големите езикови модели

Стартап от Маями твърди, че е преодолял ключово ограничение в големите езикови модели
Стартапът Subquadratic обяви, че е намерил решение на дългогодишен математически проблем, който забавя развитието на големите езикови модели (LLM). Ако твърденията им се потвърдят, това може да ускори изчислителните процеси и да намали разходите за обучение на такива модели.

В последните години големите езикови модели (LLM) като GPT и други трансформър-базирани системи се превърнаха в основен двигател на изкуствения интелект. Въпреки това, тяхното развитие е ограничено от изчислителни и математически предизвикателства, които забавят обучението и увеличават разходите. Наскоро стартапът Subquadratic, базиран в Маями, заяви, че е преодолял един от тези ключови проблеми, който е бил пречка почти десетилетие.

Какво се случи

Subquadratic излезе от „стелт“ режима миналия месец с твърдението, че е решил математическия „бутилкаут“ (bottleneck), който ограничава ефективността на големите езикови модели. Този проблем се отнася до сложността на изчисленията, необходими за обработка на огромни обеми данни и параметри, които характеризират LLM. Въпреки първоначалния скептицизъм от страна на експертите, компанията започна да публикува технически доказателства и демонстрации, които подкрепят техните претенции.

Защо това е важно

Големите езикови модели са изключително ресурсоемки – те изискват огромни изчислителни мощности и време за обучение, което прави разработката им скъпа и достъпна само за големи корпорации. Ако Subquadratic наистина е намерил начин да намали изчислителната сложност, това би могло да доведе до значително по-бързо и по-евтино обучение на LLM. Това от своя страна би отворило вратата за по-широко използване на тези технологии в различни индустрии и от по-малки компании.

По-широк контекст

Големите езикови модели се базират на трансформър архитектура, която въведе революция в обработката на естествен език. Въпреки това, тяхната мащабируемост е ограничена от алгоритмичната сложност на някои операции, като например вниманието (attention), което расте квадратично с дължината на входния текст. Много изследователи и компании работят върху оптимизации и алтернативни подходи, но досега не е имало радикално решение, което да промени фундаментално изчислителния модел.

Subquadratic твърди, че тяхното решение намалява тази сложност, което би могло да промени правилата на играта в областта. Ако това се потвърди и бъде прието от научната общност, то може да ускори развитието на по-големи и по-ефективни модели, както и да намали въглеродния отпечатък от обучението им.

Какво може да последва

Следващите стъпки ще включват независими проверки и по-широко публикуване на техническите детайли на решението на Subquadratic. Ако други изследователи потвърдят резултатите, това може да доведе до бързо внедряване на новите методи в индустрията. Възможно е да видим ново поколение езикови модели, които са по-бързи, по-евтини и по-екологични за обучение.

В същото време, успехът на Subquadratic може да стимулира конкуренцията и иновациите в сферата на изкуствения интелект, като насърчи и други компании и изследователи да търсят подобни пробиви в алгоритмичната ефективност.

Тази статия е автоматично обобщена и структурирана от AI News Tech въз основа на публично достъпни технологични източници.

Източници

Видео по темата

This Is The Real Reason Nvidia Abandoned PC Gamers
This Is The Real Reason Nvidia Abandoned PC Gamers Hardware Unboxed
I can securely erase this computer from anywhere!
I can securely erase this computer from anywhere! Linus Tech Tips
"Are We All Actually F'd?" - ft. Hardware Unboxed
"Are We All Actually F'd?" - ft. Hardware Unboxed Gamers Nexus
007 First Light PC Review - DLSS Finally Fixed, But Other Issues Still Need Fixing
007 First Light PC Review - DLSS Finally Fixed, But Other Issues Still Need Fixing Digital Foundry