Marc Alier (Ludo) - Home Page

Pàgina personal i Calaix Desastre

Què és i què no és ChatGPT?

Posted at — Feb 24, 2023

Continguts

Què és ChatGPT ?

ChatGTP és una aplicació web basada en GPT-3, concretament en el model GPT-3.5 “text-davinci-003” desenvolupat per OpenAi. El Model ChatGPT està optimitzat per funcionar en forma conversa, responent a les entrades que els usuaris li donen en forma de “prompt” de text. ChatGPT és un tipus d’IA Generativa basada en unModel de Machine Learning . Podem considerar que ChatGPT és una IA dèbil (veure Típus d’inteligencia Artificial].

GPT-3 és un model generatiu de llenguatge natural immens. Ha estat entrenat amb 175 mil milions de paràmetres en múltiples idiomes, entre ells el Català. Si el procés d’entrenament s’hagués fet amb un sol ordinador haguessin calgut 355 anys. El cost d’entrenar-lo en una plataforma al núvol de baix cost és de 4.600.000 dòlars. https://lambdalabs.com/blog/demystifying-gpt-3

(Font imatge: https://blog.accubits.com/getting-started-with-gpt-3-model-by-openai/)

ChatGPT és un Software As A Service (SaaS)

ChatGPT és proporciona com a servei; és un “Software as a Service” no un programari que puguem instal·lar a un servidor o a un servei de computació al núvol. Per tant, els propietaris del servei (OpenAi, entitat participada per Microsoft en un 49% des de gener de 2023) decideixen les condicions de prestació: qui hi té accés, per a quines finalitats i quina qualitat de servei i disponibilitat ofereix.

Termes i condicions

Els termes de servei de ChatGPT https://openai.com/terms/ indiquen que

Esteu d’acord i ens doneu instruccions per utilitzar el Contingut per desenvolupar i millorar els serveis. Podeu llegir més aquí sobre com es pot utilitzar el Contingut per millorar el rendiment del model. Entenem que en alguns casos pots no voler que el teu Contingut s’utilitzi per millorar els serveis. Podeu optar per no utilitzar el Contingut per millorar contactant amb suport@openai.com amb la vostra ID d’organització. Tingueu en compte que en alguns casos això pot limitar la capacitat dels nostres serveis per abordar millor el vostre cas d’ús específic.

O sia que les dades que entrem a ChatGPT en forma de Prompt seran recollides, analitzades i emprades per a la recerca, millora del servei i de ben segur per entrenar futures versions de GPT-N

OpenAi publica de forma clara quins són els seus termes i condicions, no abusen del llenguatge legal ni fan servir lletra petita. Us recomano la lectura dels termes de servei https://openai.com/terms/ i política de privacitat https://openai.com/privacy/

Drets d’autoria i responsabilitat dels outputs de ChatGPT

Un aspecte molt important de l’us d’eines d’IA generativa com ChatGPT, DALL-E, Stable Difussion, Whisper o VALL-E, és l’acord establert implícita o explícitament sobre els drets d’autoria d’allò que es genera (text, imatge, àudio o vídeo ). Això determina el copyright i els drets d’ús que se’n deriven per a les parts implicades.

Els termes genèrics d’OpenAi per a les seves eines defineixen dos conceptes importants: Entrada i sortida. L’Entrada (Input) és el promptgenerat pels usuaris, mentre que la Sortida (Output) és el contingut generat pel Model de machine learning. L’entrada i la sortida conformen el contingut.

Vegem el que diuen els termes traduïts pel mateix ChatGPT.

_(a) El teu contingut. Pots proporcionar dades d’entrada als serveis (“Entrada”) i rebre les dades de sortida generades i retornades pel servei basades en l’Entrada (“Sortida”). L’Entrada i la Sortida són col·lectivament “Contingut”. Entre les parts i en la mesura permesa per la llei aplicable, tu ets propietari de tota l’Entrada i, sotmès al teu compliment d’aquests Termes, OpenAI et cedeix tot el seu dret, títol i interès en i per la Sortida. OpenAI pot utilitzar el Contingut com sigui necessari per proporcionar i mantenir els Serveis, complir amb la llei aplicable i fer complir les nostres polítiques. Ets responsable del Contingut, incloent-hi assegurar que no viola cap llei aplicable ni aquests Termes.

O sia que l’autor d’un prompt] té els drets sobre les sortides generades per una IA d’OpenAi sempre que tingui drets sobre les entrades que han generat aquests continguts. En cas de no tenir els drets estaria contravenint els termes de servei d’OpenAi i això comportaria que jo no soc qui per dir-ne res al respecte i cal consultar advocats i serveis legals.

OpenAi té coses a dir sobre el contingut, la seva naturalesa i la possibilitat de que certes sortides es repeteixin.

(b) Similitud del contingut. A causa de la naturalesa del aprenentatge automàtic, la Sortida pot no ser única entre els usuaris i els serveis poden generar la mateixa o similar sortida per OpenAI o un tercer. Per exemple, pots proporcionar entrada a un model com “Quin color té el cel?” i rebre sortida com “El cel és blau.” Altres usuaris també poden fer preguntes similars i rebre la mateixa resposta. Les respostes que són sol·licitades per i generades per altres usuaris no són considerades com el teu Contingut.

O sia, l’originalitat de la sortida depèn de l’originalitat de l’entrada. Els advocats s’ho passaran d’allò més bé els anys vinents. O potser un germà de ChatGPT especialitzat en assessoria legal… però divago.

Cost i accés

A gener de 2023 i des de desembre de 2022 ChatGPT es troba disponible gratuïtament a l’URL https://chat.openai.com

Els models anteriors de GPT-3 estaven disponibles per a fer proves a través d’una interfície més complexa i per API (Aplication Programming Interface) . Per accedir-hi, després d’un període de prova calia pagar pel seu ús comprant paquets de “tokens”. No està clar quant de temps estarà ChatGPT disponible pel seu ús gratuït.

Ja hi ha una llista d’espera oberta per accedir a la modalitat “pro” de ChatGPT. S’especula que el preu serà de 42$ mensuals, tot i que es manté la modalitat de franc.

L’accés per a programadors d’aplicacions via API (Aplication Programming Interface) a ChatGTP i en breu es començarà a gestionar gestioni a través dels serveis cloud de Microsoft: Azure. https://indianexpress.com/article/technology/tech-news-technology/openais-chatgpt-api-microsoft-azure-api-businesses-8386106/ A conseqüència d’això ben segur començarem a trobar eines especialitzades que faran us de diversos models de GPT-3.

Un exemple és el model “códex”, una variant de GPT-3 entrenada amb el codi font disponible a Github (el repositori de projectes de programari lliure més gran a la xarxa, adquirit per Microsoft fa un parell d’anys), on fa uns mesos s’ofereix el sistema Copilot, un assistent a la programació capaç de generar codi, traduir programes entre llenguatges de programació, optimitzar codi i comentar programes, entre altres aplicacions.

Quina és la finalitat de ChatGPT i perquè es de franc?

L’objectiu de ChatGPT és facilitar l’ús d’aquest model per part d’un gran nombre per persones (de l’ordre de centenars de milions) aconseguint dades per als investigadors d’OpenAi. Tal com apunta el CEO d’OpenAi al Pòdcast Moonshots.

ChatGPT no és codi obert

GPT-3 no és codi obert, altres Models de machine learning ho son però GPT-3 i DALL-E no. Al respecte ChatGPT diu:

_GPT-3 és un model de processament de llenguatge desenvolupat per OpenAI. El model i les dades que s’utilitzen per entrenar-lo són propietat d’OpenAI, i per això no són de codi obert. OpenAI ha decidit no fer-lo obert perquè considera que és una tecnologia valuosa i considera que és important protegir-la per poder continuar finançant el seu desenvolupament i millora.

A més, hi ha preocupacions sobre els possibles riscos associats amb l’ús no intencionat o maliciós de la tecnologia de GPT-3, com ara la generació automatitzada de notícies falses o la automatització de l’enginyeria social. OpenAI ha adoptat una estratègia de llicència restrictiva per evitar aquestes preocupacions i assegurar que GPT-3 s’utilitzi de manera responsable.

Aspectes ètics

Els resultats dels models generatius basats en transformador poden oferir resultats tan convincents com per passar el test de Turing. El juny del 2022 un enginyer de Google, qui va ser acomiadat, va declarar que estava convençut el model Lambda era autoconscient i que, per tant, tenia drets anàlegs als drets humans. https://www.livescience.com/google-sentient-ai-lamda-lemoine

El gener de 2023 Les xarxes socials han circulat rumors sobre el nombre de paràmetres de GPT-4. No obstant el CEO d’OpenAi Sam Altman ho ha desmentit i ha fet èmfasi en que GPT-4 no serà una Tipus d’inteligencia artificial.

ChatGPT és un projecte en contínua evolució. Sovint hi ha actualitzacions del servei i molts investigadors han reportat canvis en el seu comportament. A la poca estona de fer servir ChatGPT podem observar que s’ha fet un esforç per fer les seves respostes políticament correctes. Alguns dels exemples són:

Reflexions ètiques dels creadors de GPT-3

Els creadors de GPT-3 van presentar el projecte en l’article “Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems30.” A l’article dediquen una secció ben amplia a discutir els possibles mals usos de sistemes generadors de text com GPT-3.

Resumit per GPT-3

_Les utilitzacions malicioses dels models de llenguatge poden ser una mica difícils d’anticipar perquè sovint impliquen la reutilització dels models de llenguatge en un entorn molt diferent o per un propòsit diferent del que els investigadors van tenir en compte.

Per ajudar amb això, podem pensar en termes de marcs de valoració de riscos de seguretat tradicionals, que esbossen passos clau com ara identificar amenaces i impactes potencials, avaluar la probabilitat i determinar el risc com una combinació de probabilitat i impacte.

Discutim tres factors: les aplicacions d’ús indegut potencials, els actors de risc i les estructures d’incentius externes. El potencial d’ús indegut dels models de llenguatge augmenta a mesura que millora la qualitat de la síntesi de text. La capacitat de GPT-3 per generar diversos paràgrafs de contingut sintètic que les persones troben difícil de distingir del text escrit per humans és un punt preocupant en aquest sentit._

  • Les aplicacions d’ús indegut potencials de models de llenguatge inclouen la desinformació, el spam, el phishing, l’abús de processos legals i governamentals, la redacció fraudulenta d’assajos acadèmics i la precisió d’enginyeria social.
  • El potencial d’ús indegut augmenta amb la millora de la qualitat de la síntesi de text.

Els autors identifiquen els diferents tipus potencials “actors d’amenaça” (threat actors) en funció del nivell habilitat i recursos d’aquests. Aquests van des d’actors de baixa o moderada habilitat i recursos fins a grups altament habilitats i ben equipats com els patrocinats per estats que anomenen ATP (Advadced Persistent Therats).

  • Els actors de baixa i mitjana habilitat actualment no representen una amenaça immediata, però les millores en la fiabilitat podrien canviar això.
  • Els actors APT no discuteixen les seves operacions en públic, però no s’han detectat diferències en les actuacions d’aquests actors des de la sortida de GPT-2.
  • El comportament dels actors d’amenaça es veu influenciat per les estructures d’incentiu externes com l’escalabilitat, reducció de cost de desplegament i la facilitat d’ús poden influir en l’adopció noves tècniques, tàctiques i procediments (TTPs) adoptades pels actors d’amenaça.
  • S’espera que els investigadors de IA desenvolupin models de llenguatge cada vegada més fiables i dirigibles, el que representaria desafiaments per a la comunitat científica i la necessitat de treballar en solucions de seguretat.

Els creadors de GPT-3 continuen el seu anàlisi amb una discussió sobre els biaixos que pot tenir el sistema i com pal·liar-los. I conclou amb un apartat sobre els aspectes energètics del sistema.

El Hype de ChatGPT

Ja fa gairebé dos anys que hi ha disponibles eines IA Generatives que permeten creat textos a partir de prompts. No obstant aquestes eines tenien una popularitat molt limitada a entorns d’interés en la IA i innovació tecnològica. Veiem en la següent figura la popularitat de GPT-3, el millor model fins al moment, comparat amb la popularitat en cerques a Google d’un terme relativament mainstream com _“ferrari”__.

En canvi, quan afegim el terme “ChatGTP”_ a la comparativa ens trobem amb un ensurt.

El terme “ferrari” ´és un bon benchmark perquè manté un interès força estable i ens permet veure com ChatGPT deperta una atenció global molt alta. Però com es compara ChatGPT respecte a un terme amb un fort hype de primer nivell durant el mes de gener de 2023 com “Shakira” qui ha estat molt de moda degut a la seva darrera cançó que ha esdevingut un fenomen a la música i cultura popular.

Doncs el resultat de Google Trends apunta al fet que el nivell d’atenció a les cerques que “ChatGPT” està suscitant és del mateix ordre que el que suscita la cantant colombiana que fins fa poc vivia a Barcelona.
Recordem el significart de “Hype"Segons ChatGPT :

Hype és un terme utilitzat per descriure una gran quantitat de publicitat i entusiasme exagerat per un producte, idea o tendència. En general, es refereix a un augment de la popularitat o de l’atenció que s’ha donat a alguna cosa sense una base real o justificació. Així, el terme hype sol referir-se a una situació en què s’han generat expectatives o expectatives desmesurades sobre un producte o servei, de manera que no és coherent amb la seva realitat o les seves capacitats.

Hi hagi base real o justificació ChatGPT és sens dubte un dels termes de cerca més populars a internet.