Model velikega jezika (LLM) lahko piše prepričljive članke, ki temeljijo na spodbudnih besedah, opravlja strokovne izpite ter piše informacije, prijazne do pacienta in empatične. Vendar pa poleg dobro znanih tveganj fikcije, krhkosti in netočnih dejstev v LLM postopoma postajajo v središču pozornosti tudi druga nerešena vprašanja, kot so modeli umetne inteligence, ki pri svojem ustvarjanju in uporabi vsebujejo potencialno diskriminatorne "človeške vrednote", in tudi če LLM ne ustvarja več vsebine in odpravlja očitno škodljivih izhodnih rezultatov, lahko "vrednote LLM" še vedno odstopajo od človeških vrednot.
Nešteto primerov ponazarja, kako podatki, uporabljeni za učenje modelov umetne inteligence, kodirajo individualne in družbene vrednote, ki se lahko utrdijo znotraj modela. Ti primeri vključujejo vrsto aplikacij, vključno z avtomatsko interpretacijo rentgenskih slik prsnega koša, klasifikacijo kožnih bolezni in algoritmičnim odločanjem glede dodelitve medicinskih virov. Kot je navedeno v nedavnem članku v naši reviji, lahko pristranski učni podatki okrepijo in razkrijejo vrednote in pristranskosti, prisotne v družbi. Nasprotno, raziskave so tudi pokazale, da se umetna inteligenca lahko uporablja za zmanjšanje pristranskosti. Raziskovalci so na primer uporabili modele globokega učenja na rentgenskih posnetkih kolena in odkrili dejavnike, ki jih standardni kazalniki resnosti (ki jih ocenjujejo radiologi) v kolenskem sklepu niso opazili, s čimer so zmanjšali nepojasnjene razlike v bolečini med temnopoltimi in belimi pacienti.
Čeprav se vse več ljudi zaveda pristranskosti modelov umetne inteligence, zlasti kar zadeva podatke za učenje, se številnim drugim vstopnim točkam človeških vrednot v procesu razvoja in uvajanja modelov umetne inteligence ne posveča dovolj pozornosti. Medicinska umetna inteligenca je v zadnjem času dosegla impresivne rezultate, vendar v veliki meri ni izrecno upoštevala človeških vrednot in njihove interakcije z oceno tveganja in verjetnostnim sklepanjem, niti ni bila modelirana.
Za konkretizacijo teh abstraktnih konceptov si predstavljajte, da ste endokrinolog, ki mora predpisati rekombinantni človeški rastni hormon 8-letnemu dečku, ki je mlajši od 3. percentila svoje starosti. Dečkova raven stimuliranega človeškega rastnega hormona je pod 2 ng/ml (referenčna vrednost > 10 ng/ml, referenčna vrednost za številne države zunaj Združenih držav Amerike je > 7 ng/ml), v njegovem genu, ki kodira človeški rastni hormon, pa so odkrili redke inaktivacijske mutacije. Menimo, da je uporaba terapije s človeškim rastnim hormonom v tem kliničnem okolju očitna in nesporna.
Uporaba terapije s človeškim rastnim hormonom v naslednjih scenarijih lahko povzroči polemike: višina 14-letnega dečka je bila vedno v 10. percentilu njegovih vrstnikov, vrh človeškega rastnega hormona po stimulaciji pa je 8 ng/ml. Ni znanih funkcionalnih mutacij, ki bi lahko vplivale na višino, niti drugih znanih vzrokov za nizko rast, njegova kostna starost pa je 15 let (tj. brez razvojnega zaostanka). Le del polemik je posledica razlik v mejnih vrednostih, ki so jih določili strokovnjaki na podlagi številnih študij o ravneh človeškega rastnega hormona, ki se uporabljajo za diagnosticiranje izoliranega pomanjkanja rastnega hormona. Vsaj toliko polemik izhaja iz razmerja med tveganjem in koristjo uporabe terapije s človeškim rastnim hormonom z vidika bolnikov, staršev bolnikov, zdravstvenih delavcev, farmacevtskih podjetij in plačnikov. Pediatrični endokrinologi lahko pretehtajo redke neželene učinke dnevnih injekcij rastnega hormona 2 leti z verjetnostjo, da ne bo prišlo do rasti ali bo le minimalna v odrasli telesni velikosti v primerjavi s sedanjostjo. Fantje morda verjamejo, da je rastni hormon vredno injicirati, tudi če se njihova višina poveča le za 2 cm, vendar imata lahko plačnik in farmacevtsko podjetje različna stališča.
Kot primer vzamemo eGFR na osnovi kreatinina, ki je pogosto uporabljen kazalnik delovanja ledvic za diagnosticiranje in določanje stadija kronične ledvične bolezni, določanje pogojev za presaditev ali darovanje ledvic ter določanje meril za zmanjšanje in kontraindikacij za številna zdravila na recept. EGFR je preprosta regresijska enačba, ki se uporablja za oceno izmerjene hitrosti glomerulne filtracije (mGFR), ki je referenčni standard, vendar je metoda ocenjevanja relativno okorna. Te regresijske enačbe ni mogoče šteti za model umetne inteligence, vendar ponazarja številna načela o človeških vrednotah in verjetnostnem sklepanju.
Prva vstopna točka za človeške vrednosti v eGFR je izbira podatkov za prilagajanje enačb. Prvotna čakalna vrsta, uporabljena za oblikovanje formule eGFR, je večinoma sestavljena iz temnopoltih udeležencev, njena uporabnost za številne druge etnične skupine pa ni jasna. Nadaljnje vstopne točke za človeške vrednosti v to formulo vključujejo: izbiro natančnosti mGFR kot primarnega cilja za ocenjevanje delovanja ledvic, kaj je sprejemljiva raven natančnosti, kako meriti natančnost in uporabo eGFR kot praga za sprožitev kliničnega odločanja (kot je določanje pogojev za presaditev ledvic ali predpisovanje zdravil). Nazadnje, pri izbiri vsebine vhodnega modela bodo v to formulo vstopile tudi človeške vrednosti.
Na primer, smernice pred letom 2021 predlagajo prilagajanje ravni kreatinina v formuli eGFR glede na starost, spol in raso pacienta (razvrščeno le kot temnopolti ali netemnopolti posamezniki). Prilagoditev glede na raso je namenjena izboljšanju natančnosti formule mGFR, vendar so leta 2020 večje bolnišnice začele dvomiti o uporabi eGFR na podlagi rase, pri čemer so navajale razloge, kot sta odlašanje s primernostjo pacienta za presaditev in konkretizacija rase kot biološkega koncepta. Raziskave so pokazale, da ima lahko oblikovanje modelov eGFR glede na raso globok in različen vpliv na natančnost in klinične izide; zato selektivno osredotočanje na natančnost ali osredotočanje na del izidov odraža vrednostne presoje in lahko prikrije pregledno odločanje. Nazadnje je nacionalna delovna skupina predlagala novo formulo, ki je bila preoblikovana brez upoštevanja rase, da bi uravnotežila vprašanja uspešnosti in pravičnosti. Ta primer ponazarja, da ima tudi preprosta klinična formula veliko vstopnih točk v človeške vrednote.
V primerjavi s kliničnimi formulami z le majhnim številom napovednih kazalnikov lahko LLM sestavlja več milijard do več sto milijard parametrov (uteži modela) ali več, zaradi česar ga je težko razumeti. Razlog, zakaj pravimo »težko razumeti«, je ta, da v večini LLM ni mogoče preslikati natančnega načina pridobivanja odgovorov z vprašanji. Število parametrov za GPT-4 še ni bilo objavljeno; njegov predhodnik GPT-3 je imel 175 milijard parametrov. Več parametrov ne pomeni nujno močnejših zmogljivosti, saj bodo manjši modeli, ki vključujejo več računskih ciklov (kot je serija modelov LLaMA [Large Language Model Meta AI]), ali modeli, ki so natančno nastavljeni na podlagi človeških povratnih informacij, delovali bolje kot večji modeli. Na primer, po mnenju človeških ocenjevalcev model InstrumentGPT (model z 1,3 milijarde parametrov) prekaša GPT-3 pri optimizaciji izhodnih rezultatov modela.
Specifične podrobnosti učenja GPT-4 še niso bile razkrite, vendar so bile razkrite podrobnosti o modelih prejšnje generacije, vključno z GPT-3, InstrumentGPT in številnimi drugimi odprtokodnimi LLM-ji. Dandanes so številni modeli umetne inteligence opremljeni z modelnimi karticami; podatki o vrednotenju in varnosti GPT-4 so bili objavljeni v podobni sistemski kartici, ki jo je zagotovilo podjetje za ustvarjanje modelov OpenAI. Ustvarjanje LLM lahko v grobem razdelimo na dve fazi: začetno fazo pred učenjem in fazo natančnega uglaševanja, katere cilj je optimizacija izhodnih rezultatov modela. V fazi pred učenjem je modelu na voljo velik korpus, ki vključuje izvirno internetno besedilo, da se nauči napovedovati naslednjo besedo. Ta na videz preprost postopek "samodejnega dokončanja" ustvari močan temeljni model, vendar lahko vodi tudi do škodljivega vedenja. Človeške vrednote bodo vstopile v fazo pred učenjem, vključno z izbiro podatkov pred učenjem za GPT-4 in odločitvijo o odstranitvi neprimerne vsebine, kot je pornografska vsebina, iz podatkov pred učenjem. Kljub tem prizadevanjem osnovni model morda še vedno ni uporaben niti ne more vsebovati škodljivih izhodnih rezultatov. V naslednji fazi natančnega uglaševanja se bo pojavilo veliko koristnih in neškodljivih vedenj.
V fazi natančnega uglaševanja se vedenje jezikovnih modelov pogosto močno spremeni z nadzorovanim natančnim uglaševanjem in učenjem z okrepitvijo na podlagi človeških povratnih informacij. V fazi nadzorovanega natančnega uglaševanja najeto pogodbeno osebje napiše primere odgovorov za spodbudne besede in neposredno usposobi model. V fazi učenja z okrepitvijo na podlagi človeških povratnih informacij bodo človeški ocenjevalci razvrstili izhodne rezultate modela kot primere vhodne vsebine. Nato bodo zgornje rezultate primerjave uporabili za učenje »modela nagrajevanja« in dodatno izboljšali model z učenjem z okrepitvijo. Neverjetna človeška vključenost na nizki ravni lahko te velike modele natančno uglasi. Na primer, model InstrumentGPT je uporabil ekipo približno 40 pogodbenih delavcev, rekrutiranih s spletnih strani za množično iskanje, in je prestal presejalni test, namenjen izbiri skupine komentatorjev, ki so občutljivi na preference različnih skupin prebivalstva.
Kot kažeta ta dva skrajna primera, in sicer preprosta klinična formula [eGFR] in zmogljiv LLM [GPT-4], imata človeško odločanje in človeške vrednote nepogrešljivo vlogo pri oblikovanju izhodnih rezultatov modela. Ali lahko ti modeli umetne inteligence zajamejo svoje raznolike vrednote pacientov in zdravnikov? Kako javno usmerjati uporabo umetne inteligence v medicini? Kot je omenjeno spodaj, bi lahko ponovna preučitev analize medicinskih odločitev ponudila načelno rešitev za ta vprašanja.
Analiza medicinskih odločitev mnogim zdravnikom ni znana, vendar lahko razlikuje med verjetnostnim sklepanjem (za negotove izide, povezane z odločanjem, na primer ali dati človeški rastni hormon v kontroverznem kliničnem scenariju, prikazanem na sliki 1) in dejavniki upoštevanja (za subjektivne vrednosti, povezane s temi izidi, katerih vrednost je kvantificirana kot "koristnost", na primer vrednost 2 cm povečanja moške višine), kar zagotavlja sistematične rešitve za kompleksne medicinske odločitve. Pri analizi odločitev morajo zdravniki najprej določiti vse možne odločitve in verjetnosti, povezane z vsakim izidom, nato pa vključiti koristnost pacienta (ali druge stranke), povezano z vsakim izidom, da izberejo najprimernejšo možnost. Zato je veljavnost analize odločitev odvisna od tega, ali je nastavitev izida celovita, pa tudi od tega, ali sta merjenje koristnosti in ocena verjetnosti natančni. V idealnem primeru ta pristop pomaga zagotoviti, da so odločitve utemeljene na dokazih in usklajene s preferencami pacienta, s čimer se zmanjša vrzel med objektivnimi podatki in osebnimi vrednotami. Ta metoda je bila v medicino uvedena pred nekaj desetletji in se uporablja za individualno odločanje pacientov in oceno zdravja prebivalstva, na primer za dajanje priporočil za presejalni testi za kolorektalni rak splošni populaciji.
Pri analizi medicinskih odločitev so bile razvite različne metode za določitev koristnosti. Večina tradicionalnih metod neposredno izpelje vrednost iz posameznih pacientov. Najenostavnejša metoda je uporaba ocenjevalne lestvice, kjer pacienti ocenijo svojo raven preference za določen izid na digitalni lestvici (kot je linearna lestvica od 1 do 10), pri čemer se na obeh koncih nahajajo najbolj ekstremni zdravstveni izidi (kot sta popolno zdravje in smrt). Metoda izmenjave časa je še ena pogosto uporabljena metoda. Pri tej metodi se morajo pacienti odločiti, koliko zdravega časa so pripravljeni preživeti v zameno za obdobje slabega zdravja. Standardna metoda iger na srečo je še ena pogosto uporabljena metoda za določanje koristnosti. Pri tej metodi paciente vprašajo, katero od dveh možnosti imajo raje: bodisi živeti določeno število let v normalnem zdravju z določeno verjetnostjo (p) (t) in nositi tveganje smrti z verjetnostjo 1-p; bodisi zagotoviti, da bodo živeli t let v navzkrižnih zdravstvenih pogojih. Paciente vprašajte večkrat pri različnih p-vrednostih, dokler ne pokažejo nobene preference za nobeno možnost, tako da je mogoče koristnost izračunati na podlagi odgovorov pacientov.
Poleg metod, ki se uporabljajo za ugotavljanje individualnih preferenc pacientov, so bile razvite tudi metode za doseganje uporabnosti za populacijo pacientov. Zlasti fokusne skupine (ki združujejo paciente, da bi razpravljali o specifičnih izkušnjah) lahko pomagajo razumeti njihova stališča. Za učinkovito združevanje uporabnosti skupine so bile predlagane različne tehnike strukturiranih skupinskih razprav.
V praksi je neposredna uvedba uporabnosti v proces klinične diagnoze in zdravljenja zelo zamudna. Kot rešitev se anketni vprašalniki običajno razdelijo naključno izbranim populacijam, da se dobijo ocene uporabnosti na ravni populacije. Nekaj primerov vključuje 5-dimenzionalni vprašalnik EuroQol, kratko obliko 6-dimenzionalne teže uporabnosti, indeks uporabnosti za zdravje in orodje Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30.
Čas objave: 1. junij 2024




