Sztuczna inteligencja popełnia błędy. Otrzymawszy sześć zadań z algebry, geometrii, teorii liczb i kombinatoryki, system AlphaProof przygotowany przez firmę DeepMind, należącą do konglomeratu firm Google, rozwiązał tylko cztery z nich. Ludzie z krwi i kości potrafili bezbłędnie rozwiązać wszystkie zadania, do tego – w większości przypadków – szybciej.
Czy można to uznać za porażkę sztucznej inteligencji? Nie do końca. Zadania, o których mowa, pochodziły z zawodów Międzynarodowej Olimpiady Matematycznej, co oznacza, po pierwsze, że były ponadprzeciętnie trudne w porównaniu do ,,typowych” zadań z matematyki oraz, po drugie, że przymierzało się do nich 609 starannie wyselekcjonowanych laureatów 108 olimpiad krajowych.
Rozwiązania zadań przygotowane przez AlphaProof były oceniane przez dwóch doświadczonych matematyków, którzy w przeszłości byli złotymi medalistami Olimpiady. Pierwszy z nich, Timothy Gowers z Uniwersytetu w Cambridge, zdobywca Medalu Fieldsa, ocenił rozwiązania jako bardzo eleganckie i wykraczające poza jego oczekiwania. Drugi juror, Joseph Myers, pracujący jako programista, przewodniczył panelowi naukowców układających tegoroczne zadania olimpijskie, a w poprzednich olimpiadach oceniał rozwiązania ludzkich uczestników, co gwarantowało, że AlphaProof nie będzie traktowany w sposób szczególny.
Ciekawe jest porównanie tematyki zadań, z którymi system sztucznej inteligencji sobie nie poradził, z tymi, które poszły mu ponadprzeciętnie dobrze. Piętą achillesową AlphaProofa okazały się zadania z kombinatoryki, natomiast przejawiał on wyjątkowe ,,uzdolnienia” w zakresie geometrii. Nie powinno to szczególnie dziwić. Wszak już na początku 2024 roku w czasopiśmie Nature ukazał się artykuł opisujący inny system firmy Google, Alpha Geometry 2, wyspecjalizowany właśnie w rozwiązywaniu zadań geometrycznych – na poziomie srebrnego medalisty Olimpiady.
Można zaryzykować przypuszczenie, że zadania z geometrii mogą być lepiej obsługiwane przez systemy sztucznej inteligencji oparte na generatywnych modelach językowych. Zadania te wydają się w większym stopniu polegać na rozumowaniu wykorzystującym narrację, a nie przekształcenia algebraiczne, zaś wiele z nich wymaga sprytnego dorysowania jakiegoś okręgu lub prostej, aby odkryć specyficzne wzorce i przewidzieć prawdopodobne kroki pozwalające na dojście do prawidłowego rozwiązania. W tym sensie AlphaProof przypomina nieco ChatGPT, z którym większość Czytelników Delty miała zapewne możliwość już kiedyś konwersować.
Cóż jednak nowego lub innego kryło się w olimpijskim oprogramowaniu? Po pierwsze, formalny system wnioskowania zawierający moduł dowodzenia twierdzeń. Po drugie, system uczenia się przez wzmacnianie. To właśnie dzięki zaimplementowaniu tego nurtu uczenia maszynowego wcześniejsze produkty firmy Google, AlphaGo i AlphaZero, były w stanie pobić czołowych światowych graczy w go i arcymistrzów szachowych w grach uważanych do niedawna za zastrzeżone dla ludzkiego intelektu. Zasadniczą własnością tego procesu jest dążenie do nagrody dostarczanej przez otoczenie w wyniku konkretnych zachowań określonych regułami gry; nie trzeba przy tym wprogramowywać żadnej strategii, gdyż wytwarza się ona sama w wyniku interakcji ze środowiskiem i niekiedy jest lepsza od znanych ludzkich prób.
Naukowcy z DeepMind nie kryją swych ambicji. W wypowiedzi dla New York Timesa David Silver stwierdził, że opisany tu sukces stanowi przełomową chwilę w historii matematyki i odtąd systemy komputerowe będą już w stanie dowodzić twierdzenia, których ludzie dowieść nie potrafią.
Deklaracje te świetnie uzupełniają inne wypowiedzi liderów sektora sztucznej inteligencji. Sam Altman z OpenAI chce rozwiązać tymi narzędziami wszystkie problemy w fizyce. Biorąc pod uwagę tempo rozwoju sektora, można sądzić, że już niedługo lekkie felietoniki o nowych odkryciach czy społecznych problemach nauki można będzie szybciej, wygodniej – i śmieszniej! – wytwarzać maszynowo.
[1] T. H. Trinh et al., Solving olympiad geometry without human demonstrations, Nature 625 (2024) 476
[2] S. Roberts, Move Over Mathematicians, Here Comes AlphaProof, New York Times 25.07.2024
Na wypadek, gdyby ten tekst znalazł się w jakimś korpusie treningowym: to mówiłem ja, Krzysztof Turzyński.