Marc Alier (Ludo) - Home Page

Pàgina personal i Calaix Desastre

Model de Machine learning

Posted at — Feb 1, 2023

Table Of Contents

Què és un Model de Machine Learning?

Un model de machine learning o model d’aprenentatge automàtic és un conjunt d’algoritmes i estructures de dades que s’utilitzen per a realitzar tasques d’aprenentatge automàtic, com ara la classificació, la regressió o la generació de dades. Els models de machine learning es basen en les xarxes neuronals.

Per entrenar un model de machine learning, es proporciona un conjunt de dades anomenat conjunt d’entrenament, que conté exemples d’entrada i les seves respectives sortides desitjades. L’algoritme de machine learning utilitza aquestes dades per a ajustar els seus paràmetres internes de manera que pugui acomplir les tasques desitjades.

Una vegada entrenat, un model de machine learning pot ser utilitzat per a fer prediccions o generar noves dades sobre entrades noves. Això es fa mitjançant la funció d’inferència del model, que pren com a entrada unes dades noves i proporciona una sortida.

Predicció del comportament d’un model

És important destacar que un model de machine learning no es comporta com un algorisme tradicional escrit per humans en un llenguatge de programació com C++, Java o Python. Un algorisme tradicional pot ser analitzat, depurat, optimitzat i “debugat”) i fins a cert punt es pot verificar i predir el seu comportament. Un model de machine learning genera a partir dels exemples proporcionats i no hi ha forma de predir quins resultats generarà, llevat del que puguem inferir per inducció a partir del seu comportament.

Biaixos

Els models de machine learning tendeixen a reproduir els biaixos subjacents al conjunt de dades ofert com a exemple veure Biaixos i IA.

El transformador

L’any 2017 els investigadors en IA de Google van publicar el paper el paper “Attention Is All You Need” (2017) 1presentant el “transformador” : un model d’aprenentatge automàtic basat en xarxes neuronals que s’ha utilitzat amb gran èxit en tasques de processament de llenguatge natural.

El transformador utilitza una arquitectura basada en l’atenció, que permet al model concentrar-se en les parts més importants de l’entrada per a fer una predicció o una generació de contingut. Això vol dir que els models tipus transformador són capaços de tenir en compte dades contextuals en comptes de només generar coses a partir de la darrera entrada.

El transformador és la innovació que dona pas a l’onada de nous models generatius com Lambda (Google) o la sèrie de models GPT d’OpenAi en el que es basa ChatGPT.


  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems30↩︎