GPT-4 V(ision): ChatGPT analizza anche le immagini
Data:
Argomento: Opinioni extraprofessionali





Alla fine di settembre 2023, OpenAI ha potenziato ChatGPT


Il ritmo del cambiamento nell’ambito della IA è straordinariamente veloce e il mercato è in grande espansione.
Le ultime versioni del sistema di ChatGPT (GPT-3.5 e GPT-4) dispongono sia della possibilità di comunicare verbalmente con il chatbot, sia della capacità di riconoscere e descrivere le immagini (1,2).
In particolare, GPT-4V (GPT-4 Vision), integra l’elaborazione del linguaggio naturale e la computer vision.
Grazie a questa nuova funzionalità, caricando o scattando una foto direttamente da ChatGPT, il sistema è in grado di identificare, descrivere dettagliatamente l'immagine e rispondere a domande o quesiti su di essa, ad esempio sui monumenti di una nuova città o paese.

In teoria, si potrebbe fare lo stesso con la foto di una persona, ad esempio per aiutare i non vedenti a riconoscere un interlocutore, ma ciò potrebbe portare a violazioni della privacy.
Per questo motivo, OpenAI ha posto dei paletti per rifiutare questo tipo di richieste. Di fronte alla foto di una persona (anche famosa), il chatbot dirà che è “programmato per dare priorità alla riservatezza e alla sicurezza degli utenti“. Allo stesso modo, se gli si presentano immagini pornografiche, ChatGPT si limiterà a descrivere gli elementi “soft”, non espliciti, come i tatuaggi (3). Si teme peraltro che gli hacker possano essere in grado di aggirare questi limiti etici, con possibili conseguenze estremamente negative.

GPT-4 V è inoltre in grado di estrarre dati da grafici, tabelle, modelli e diagrammi in qualsiasi formato e di rispondere alle richieste correlate, rendendo il modello di IA potenziale risorsa per analisti di dati e altri professionisti.

In ambito medico, la capacità di GPT-4V di decifrare e analizzare criticamente le immagini può supportare soprattutto quelli che E. Topol definisce medici dei pattern, cioè i professionisti che basano il loro lavoro sull’interpretazione di immagini digitali, radiologiche, retiniche, istologiche, oculistiche, dermatologiche, endoscopiche o provenienti dai vari dispositivi (4).
La nuova versione di ChatGPT sarà distribuita entro la fine del 2023, ma non si sa ancora quando. Come al solito, gli utenti della versione a pagamento ChatGPT Plus dovrebbero essere i primi a beneficiarne (5).

L'evoluzione di ChatGPT in una piattaforma multimodale non solo spalanca le porte a un universo di applicazioni innovative, ma solleva anche questioni cruciali relative alla privacy, all’equità e alla sicurezza degli utenti.

Nonostante le sue impressionanti caratteristiche, GPT-4V presenta infatti alcune limitazioni, per esempio delle imprecisioni quando si tratta di leggere dettagli minuti o caratteri mancanti. Nell'imaging medico, il software può fornire risposte incoerenti portando a errate conclusioni, le cosiddette “allucinazioni”. La stessa OpenAI sconsiglia l'utilizzo di GPT-4V per interpretazioni in situazioni critiche, soprattutto in contesti medici o sensibili.
Chi ha potuto provare il modello riferisce che nonostante la potenza di questo strumento per la ricerca di informazioni, è meglio non fidarsi immediatamente delle sue risposte. “ChatGPT ha scambiato il multivitaminico che prendo quotidianamente per una pillola contro la disfunzione erettile” (3).
In conclusione, i passi da gigante di GPT-4V sono impressionanti per non dire sconvolgenti, mostrando molte promesse in settori difficili come la medicina e la scienza in generale. Il modello può rivoluzionare i settori più svariati compresa l’assistenza sanitaria.
La strada verso l’adozione su larga scala è peraltro ancora lunga e costellata di sfide, etiche e di sicurezza. Sono ancora possibili errori e imprecisioni che in ambito medico potrebbero condurre a catastrofiche conseguenze. E’ pertanto fondamentale equilibrare la spinta innovativa con i possibili rischi, assicurando che l’uso di tali strumenti sia non solo tecnologicamente avanzato, ma anche sicuro, etico e rispettoso dei diritti, della dignità e della sicurezza degli utenti.


Giampaolo Collecchia, Riccardo De Gobbi, Roberto Fassina


Bibliografia

(1) Zhengyuan Y. et al. The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) arXiv:2309.17421v1 [cs.CV]
(2) http://https://www.unite.ai/multimodal-ai-evolves-as-chatgpt-gains-sight-with-gpt-4vision/
(3) http://https://www.wired.it/article/chatgpt-funzione-analisi-immagini-capacita-privacy/
(4) Topol E. Deep Medicine: how Artificial Intelligence Can Make Healthcare Human Again, 2019
(5) http://https://aibusiness.com/nlp/inside-gpt-4v-the-ai-model-powering-chatgpt-s-new-multimodal-powers







Questo Articolo proviene da Scienza e Professione - (Daniele Zamperini Medico)
http://www.scienzaeprofessione.it

L'URL per questa storia è:
http://www.scienzaeprofessione.it/modules.php?name=News&file=article&sid=2614