24 stycznia 2025, Piątek
imieniny: Felicji, Roberta, Sławy

ChatGPT nie zastąpi historyków - "brakuje mu głębi zrozumienia"

2025-01-24 11:10:49(ost. akt: 2025-01-24 11:13:44)

Autor zdjęcia: PAP

ChatGPT-4 Turbo uzyskał 46 proc. punktów w teście sprawdzającym wiedzę i rozumienie historii – dużo mniej niż człowiek z tytułem doktora. Choć program zna wiele faktów, to słabo sobie radzi z ich interpretacją - wykazało nowe badanie.

Warto przeczytać

Naukowcy z Complexity Science Hub (CSH) w Wiedniu (Austria), twórcy tworzonej od dekady bazy Seshat Global History Databank, postanowili sprawdzić, czy oparte na sztucznej inteligencji chatboty mogłyby pomóc historykom i archeologom w zbieraniu danych i lepszym zrozumieniu przeszłości.

Razem z międzynarodową grupą ekspertów ocenili różne wersje ChatGPT-4, Llama i Gemini.

„Duże modele językowe (LLMs), takie jak ChatGPT, odniosły ogromny sukces w niektórych dziedzinach — na przykład w dużej mierze zastąpiły asystentów prawnych. Jednak w kwestii oceniania cech dawnych społeczeństw, zwłaszcza tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone” – mówi prof. Peter Turchin z CSH, autor badania przedstawionego w trakcie konferencji NeurIPS.

„Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że sprawdzone przez nas modele są bardzo słabe. Wynik pokazuje, że sztuczna inteligencja działa specyficznie dla danego obszaru. LLM-y radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo źle w porównaniu z ludźmi” – dodaje.

GPT-4 Turbo, który osiągnął najlepsze wyniki, uzyskał 46 proc. w teście z pytaniami wielokrotnego wyboru.

Według prof. Turchina i jego zespołu, chociaż wynik ten stanowi poprawę w stosunku do bazowego poziomu 25 proc. wynikającego z losowego zgadywania, podkreśla on znaczące braki w rozumieniu wiedzy historycznej przez sztuczną inteligencję.

„Myślałam, że chatboty oparte na sztucznej inteligencji poradzą sobie znacznie lepiej. Historia często postrzegana jest jako zbiór faktów, ale czasami konieczna jest ich interpretacja, aby nadać im sens” – mówi współautorka eksperymentu prof. Maria del Rio-Chanona.

To pierwszy eksperyment tego rodzaju – informują naukowcy. Testowane systemy miały za zadanie odpowiadać na pytania na poziomie magisterskim i eksperckim, podobne do tych, na które udzielano odpowiedzi we wspomnianej bazie Seshat.

Badacze wykorzystali wiedzę zawartą w Seshat, aby sprawdzić dokładność odpowiedzi SI.

Seshat to potężna baza gromadząca wiedzę historyczną na temat 600 społeczeństw na całym świecie, obejmująca ponad 36 tys. punktów danych i ponad 2,7 tys. odniesień.

„Chcieliśmy ustalić punkt odniesienia do oceny zdolności dużych modeli językowych do radzenia sobie z wiedzą historyczną na poziomie eksperckim. Baza danych Seshat pozwala nam wyjść poza pytania dotyczące ogólnej wiedzy. Kluczowym elementem było to, że nie tylko sprawdzaliśmy, czy te modele potrafią zidentyfikować fakty, ale również wyraźnie pytaliśmy, czy dany fakt można udowodnić lub wywnioskować na podstawie dowodów pośrednich” – tłumaczy jeden z naukowców, Jakob Hauser.

Badanie ujawniło również inne istotne cechy zdolności obecnych chatbotów do rozumienia historii świata. Na przykład najtrafniejsze odpowiedzi dotyczyły pytań o historię starożytną, szczególnie z okresu od 8 tys. do 3 tys. p.n.e.

Jednak ich dokładność znacznie spadała w odniesieniu do bardziej współczesnych okresów, a największe braki w zrozumieniu dotyczyły wydarzeń od roku 1500 n.e. do współczesności.

Ponadto wyniki pokazały rozbieżności w wydajności modeli historii różnych regionów geograficznych. Modele OpenAI radziły sobie lepiej w przypadku Ameryki Łacińskiej i Karaibów, podczas gdy model Llama osiągnął najlepsze wyniki w Ameryce Północnej.

Wydajność modeli OpenAI i Llama była gorsza w przypadku Afryki Subsaharyjskiej, a Llama również słabo wypadł w przypadku Oceanii.

Wskazuje to na potencjalną tendencyjność danych treningowych, które mogą nadmiernie akcentować niektóre narracje historyczne, zaniedbując inne – uważają badacze.

Ukazały się również różnice w różnych kategoriach - modele najlepiej radziły sobie w kwestiach dotyczących systemów prawnych i złożoności społecznych, jednak miały trudności z tematami takimi jak dyskryminacja czy mobilność społeczna.

"Główna konkluzja z tego badania jest taka, że LLM, choć są imponujące, to wciąż brakuje im głębi zrozumienia wymaganej do zaawansowanej analizy historii. Są świetne w kwestiach podstawowych faktów, ale jeśli chodzi o bardziej subtelne badania historyczne prowadzone na poziomie doktoranckim, jeszcze nie sprostają temu zadaniu" - mówi prof. del Rio-Chanona.

red./PAP

Komentarze (0) pokaż wszystkie komentarze w serwisie

Komentarze dostępne tylko dla zalogowanych użytkowników. Zaloguj się.

Zaloguj się lub wejdź przez