Alberto Puliafito (@albertopi) Bsky

📌 le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello

Un paio di link:
- lnkd.in/dCZJBVN6
- lnkd.in/dMC6tHUx

1 year ago 4 0 0 0

📌 le performance di un modello non si misurano in base a come ha risposto una volta a me o a te. È complicato. Ci sono progetti come Lmarena che aiutano a vedere come va in generale (pure lì si può barare un po’, ovviamente)

1 year ago 1 0 1 0

📌 i “guardrail” dei LLM si possono superare (o provare a superare): con strategie metatestuali, usando i numeri al posto delle lettere, con tecniche di PNL, bla la. Ci sono interi progetti dedicati a questo (come il Redarena)

1 year ago 0 0 1 0

📌 ogni LLM ha punti di forza e di debolezza. Tipo: sì, abbiamo capito che – le versioni precedenti di – ChatGPT non sa contare quante r ci sono nella parola strawberry. In generale, se vedi errori di questo genere fanno parte del funzionamento del modello e poi si correggono

1 year ago 0 0 1 0

DeepSeek non parla di Piazza Tienanmen, ChatGPT fa mooooolta fatica a perorare la causa dei palestinesi e via dicendo

1 year ago 0 0 1 0

📌 ogni LLM ha le sue regole imposte da chi li ha programmati e i suoi guardrail. Faccio esempi sparsi: i limiti sono molti altri Gemini non risponde a domande di politica, Claude 2.1 non dice parolacce manco sotto tortura,

1 year ago 0 0 1 0

📌 non ha molto senso chiedere a un LLM di fare citazioni letterali, a meno che non si sia fatto un fine-tuning su testi specifici e un po’ di lavoro sul tema. Tendenzialmente, inventerà le citazioni letterali

1 year ago 0 0 1 0

Se può andare sul web e glie lo chiedi magari prenderà informazioni da lì. In ogni caso, se non sa chi sei tu non vuol dire che non funzioni

1 year ago 0 0 1 0

📌 non ha molto senso chiedere a un LLM “Chi sono io”. Se questa informazione c’è nei suoi dati di addestramento, probabilmente risponderà abbastanza correttamente. Se no, inventerà.

1 year ago 0 0 1 0

Qui un rapido riepilogo (se mi viene in mente altro aggiungo e se mi suggerite ancora meglio):

📌 sì, gli LLM possono “inventare” le risposte
📌 ha poco senso proporre conclusioni definitive rispetto a un nuovo modello, fare affermazioni tipo “questo cambia tutto” o altre cose apodittiche

1 year ago 0 0 1 0

Mi ero illuso che dopo il primo giro di ubriacatura per ChatGPT fosse più chiaro cosa siano gli LLM e come non sprecare troppo tempo, attenzione, risorse, spazi, soprattutto nella produzione dei contenuti. Ma poi è arrivato DeepSeek e abbiamo ricominciato da capo, come in un eterno gioco dell’oca.

1 year ago 5 1 1 0

ChatGPT loses users for first time, shaking faith in AI revolution OpenAI's chatbot has been heralded as spurring a revolution in the tech world. But its spectacular growth has suddenly slowed down.

Typical media tech coverage: AI is unstoppable! ... AI is over!

ChatGPT loses users for first time, shaking faith in AI revolution www.washingtonpost.com/technology/2023/07/07/ch...

2 years ago 4 3 0 0

Bluesky is a public benefit corp with the mission “to develop and drive large-scale adoption of technologies for open and decentralized public conversation.”

The PBC status allows us to pursue our mission above profit, but we still need to make this open ecosystem sustainable.

2 years ago 1058 194 36 47

Posts by Alberto Puliafito