Słowniczek terminów generatywnej sztucznej inteligencji
Terminem Sztuczna Inteligencja (SI, angielski skrót to AI od „Artificial Intelligence”) określa się zdolność współczesnych maszyn, w szczególności systemów komputerowych, do wykonywania zadań tradycyjnie kojarzonych z działaniem inteligencji ludzkiej, takich jak uczenie się, rozpoznawanie, planowanie, kreatywność, czy efektywne komunikowanie się w języku naturalnym.
Ta ostatnia umiejętność – oparta o szczególny rodzaj SI o nazwie „generatywna sztuczna inteligencja” (ang. skrót GenAI, pol. zwykle GSI) – jest obecna w masowej świadomości od listopada 2022 roku, kiedy firma Open AI udostępniła społeczności światowej przełomowe narzędzie „do słownej komunikacji z komputerem” o nazwie ChatGPT.
Poniższy Słowniczek wprowadza – krok po kroku – najważniejsze pojęcia, począwszy od „uczenia maszynowego”, które pozwalają zrozumieć zasady, na jakich działa sztuczna inteligencja i jej generatywna odmiana, a także pomagają uzmysłowić sobie, w czym systemy GSI zdają się mieć dziś przewagę nad ludzkim umysłem, a gdzie jeszcze wykazują niedoskonałości.
Słowniczek
Uczenie maszynowe jest metodą programowania, która umożliwia systemom komputerowym uczenie się na podstawie dostarczanych danych. Mówimy, że system informatyczny uczy się, jeśli w miarę napływających danych – zwanych danymi uczącymi – wykonuje swoje zadanie coraz lepiej.
W nadzorowanym uczeniu maszynowym dane uczące są opracowane przez człowieka i zawierają oczekiwane wyniki zadania. Na przykład dla zadania rozpoznawania obiektów przygotowane zostają obrazy wraz z informacją, co na nich się znajduje – im więcej takich danych, tym lepiej system wykonuje swoje zadanie.
Nienadzorowane uczenie maszynowe polega na tym, że system uczy się na podstawie dużych zestawów danych pozbawionych oczekiwanych wyników konkretnego zadania. System samodzielnie uczy się wychwytywać zależności występujące w danych. Na przykład algorytm grupowania obiektów podobnych działa skutecznie bez żadnych podpowiedzi.
W uczeniu maszynowym ze wzmocnieniem system uczy się, wchodząc w bezpośrednią interakcję ze środowiskiem, w którym działa, prawdziwym lub symulowanym, otrzymując informacje zwrotne w postaci nagród za pożądane reakcje i kar za reakcje niepożądane. Na przykład system autonomicznego prowadzenia pojazdu może być uczony (w warunkach laboratoryjnych) za pomocą nagród za osiągniecie celu podróży i kar za powodowanie incydentów.
Sztuczna inteligencja (SI, ang. AI) to dziedzina informatyki, która zajmuje się tworzeniem systemów komputerowych symulujących ludzką inteligencję. Symulacja ta może dotyczyć:
- procesu uczenia się realizowanego przez uczenie maszynowe,
- przetwarzania danych wejściowych podanych w formie zrozumiałej dla ludzkich zmysłów, głównie wzroku i słuchu, np.: tekstów, obrazów, nagrań wideo, dźwięków czy mowy ludzkiej,
- generowania danych wyjściowych podanych w formie zrozumiałej dla ludzi.
Generatywna sztuczna inteligencja (GSI, ang. GenAI) to typ sztucznej inteligencji, który koncentruje się na generowaniu danych wyjściowych podanych w formie zrozumiałej dla ludzi. Na podstawie wzorców uchwyconych w danych uczących systemy tego typu potrafią tworzyć nowe, oryginalne byty. Przykładami są systemy: ChatGPT generujący tekst w języku naturalnym, Midjourney generujący obrazy przypominające dzieła ludzkiego malarza, Copilot tworzący kod programistyczny, czy Sora generujący filmy o zadanej przez użytkownika treści.
Sieć neuronowa to metoda obliczeniowa, w której zestaw „neuronów” (jednostek obliczeniowych inspirowanych funkcjonowaniem komórek nerwowych), połączonych w sieć, przetwarza i analizuje dane podobnie jak mózg ludzki. Neurony ułożone są w warstwach: wejściowej, wyjściowej oraz warstw ukrytych znajdujących się między nimi. Każda kolejna warstwa otrzymuje dane będące wynikiem przetworzenia danych w warstwie poprzedniej, przy czym warstwę wejściową stanowią dane wejściowe (np. informacje o obrazie przeznaczonym do rozpoznania), a warstwa końcowa reprezentuje dane wyjściowe systemu (np. informacje o tym, jaki obiekt został rozpoznany na obrazie).
Głęboka sieć neuronowa to sieć neuronowa zawierająca dużą liczbę (zwykle od kilkunastu do kilku tysięcy) warstw ukrytych.
Uczenie głębokie to typ uczenia maszynowego realizowanego przy użyciu głębokich sieci neuronowych.
Liczba parametrów określa liczbę połączeń między neuronami w sieci neuronowej i określa jej wielkość.
Wielki model języka (ang. Large Language Model, LLM) to głęboka sieć neuronowa wytrenowana do generowania naturalnej kontynuacji wypowiedzi, nauczona na olbrzymich zestawach danych tekstowych. Dzięki zastosowaniu metod nadzorowanego uczenia maszynowego oraz uczenia maszynowego przez wzmocnienie wielkie modele języka zostały dostosowane do zadań takich jak odpowiadanie na pytania, prowadzenie dialogu, tworzenie prozy czy generowanie kodu programowania.
Przykładami wielkich modeli języka są amerykańskie: ChatGPT (w najnowszej wersji 4.o dostępny bezpłatnie, z ograniczeniami), Claude (dostępny bezpłatnie, z ograniczeniami), Gemini (dostępny bezpłatnie pod warunkiem zalogowania do usługi Google), Llama (z bezpłatnym dostępem i możliwością douczenia na własnych danych) oraz opracowany w Europie Mistral (dla mniejszych wersji z licencją podobną do Llamy). Liczby parametrów tych modeli wahają się od kilku do kilkuset miliardów.
Halucynacja to niepożądane działania wielkiego modelu języka polegające na wygenerowaniu informacji nieprawdziwej, bezsensownej lub niezwiązanej z zapytaniem. Na przykład, wielki model języka, poproszony o wypisanie bibliografii dla danego zagadnienia może wygenerować tytuły nieistniejących, choć brzmiących realistycznie, książek czy artykułów.
Stronniczość (ang. bias) to niepożądane działanie systemu generatywnej sztucznej inteligencji, polegające na wygenerowaniu treści tendencyjnych, nieobiektywnych lub dyskryminujących, np. nacechowanych politycznie, rasowo lub ideologicznie. Stronniczość spowodowana jest najczęściej niewłaściwie przygotowanymi danymi uczącymi, które nie zawierają pełnej różnorodności przykładów wszystkich grup lub zjawisk. Przykładem może być system rekomendacji filmów – jeśli opiera się na danych pochodzących głównie od młodych mężczyzn, to może proponować rekomendacje mniej odpowiedne dla kobiet lub starszych osób.
Token to najmniejsza jednostka języka interpretowana przez wielki model języka. Na przykład wyraz „inteligencja” jest interpretowany przez model ChatGPT jako składający się z dwóch tokenów: „inteligen” oraz „cja”.
Prompt to instrukcja użytkownika skierowana do wielkiego modelu języka w celu uzyskania pożądanych informacji. Prompt podaje się zazwyczaj w postaci zapytania lub żądania w języku naturalnym, np. „Wytłumacz, co oznacza termin sztuczna inteligencja”. Długość promptu z reguły waha się od kilku wyrazów do kilkunastu zdań. Od właściwego przygotowania promptu zależy jakość (zgodność z oczekiwaniami) otrzymanej odpowiedzi.
Wielki model języka może odpowiadać na prompt w sposób niedeterministyczny – na tę samą wypowiedź użytkownika może wygenerować w różnym czasie różną odpowiedź.
Okno kontekstowe to określana liczbą tokenów wielkość tekstu, który brany jest pod uwagę przez wielki model języka podczas generowania wypowiedzi. Tworząc odpowiedź na zadany prompt, wielki model języka jest w stanie odnieść się do historii konwersacji między użytkownikiem a systemem, której długość nie wykracza poza okno kontekstowe.
Detektor AI to system mający na celu wykrycie treści generowanych przez systemy sztucznej inteligencji, a w szczególności przez wielkie modele języka. Skuteczność działania detektorów AI może się znacząco różnić w zależności od języka lub dziedziny badanego tekstu, a także od wersji wielkiego modelu języka zastosowanego do wygenerowania badanego tekstu. Do wyników podawanych przez detektory AI należy podchodzić z dużą ostrożnością, gdyż nie ma żadnej gwarancji, że informacje zwracane przez detektory AI są prawdziwe.