Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi: $54K/🎙️ mese https://t.co/fmB6Zf5n9X: $32K/mese 💼 https://t.co/hNxFPvj3v1: $31K/mese 🤝 https://t.co/SqC3jTyhav: $28K/mese
La maggior parte dei PM AI misura i propri agenti in modo errato. Saltano direttamente all'attribuzione dei ricavi prima di sapere se l'AI sta facendo ciò che dovrebbe fare.
Lisa Huang gestisce l'AI in Xero, una piattaforma finanziaria da 18 miliardi di dollari che serve 4 milioni di aziende. Ha spiegato come pensa di misurare Jax, il loro super agente finanziario, e si tratta di un sistema a tre livelli in cui l'ordine è più importante delle metriche.
Livello 1: Qualità. L'AI sta facendo ciò che dovrebbe fare? Questo significa valutazioni, annotatori umani e giudici LLM. Hai bisogno di tutti e tre perché nessuno scala da solo. Gli annotatori umani ti forniscono la verità di base. I giudici LLM ti danno scala. Le valutazioni ti forniscono un framework coerente attraverso i casi d'uso. Monitora regolarmente la qualità e comprendi quali investimenti chiudono quali lacune. Questa è la tua base.
Livello 2: Metriche di prodotto. Adozione, utilizzo, retention, CSAT. Anche segnali qualitativi dai social media, ticket di supporto, conversazioni con i clienti. Gli utenti ti diranno cose in quei canali che nessuna dashboard mostra.
Livello 3: Impatto sul business. Attribuzione dei ricavi. Influenza sulla retention. Contributo ARR.
Il punto critico: saltare al livello tre senza una solida base al livello uno significa che stai misurando su sabbia. Attribuirai ricavi a una funzione AI che fornisce risposte sbagliate il 30% delle volte e non lo saprai fino a quando i clienti non abbandoneranno.
In finanza, l'accuratezza fino al decimale è importante. Il team di Lisa utilizza sistemi ibridi con LLM in flussi di lavoro multi-agente dove la flessibilità aiuta, e codice programmatico dove hanno bisogno di controllo deterministico. Questa decisione architetturale deriva direttamente dalla conoscenza dei requisiti di qualità a ciascun passaggio.

Aakash Gupta6 mar, 08:07
Gemini Gems, Claude Projects, GPT personalizzati. Se non stai utilizzando nessuno di essi, stai lavorando più duramente del necessario.
La creatrice di Gemini Gems mi ha guidato attraverso l'intero setup:
3:52 - I 3 Gems di cui tutti hanno bisogno
6:05 - Creare un Gem personalizzato
32:22 - Misurare il tuo setup
Ogni giorno, milioni di persone aprono ChatGPT, Gemini o Claude e digitano lo stesso contesto nella chat che hanno digitato ieri.
Il loro ruolo. La loro strategia aziendale. Il loro stile di scrittura. La storia del loro prodotto. Ancora e ancora.
Lisa Huang ha creato Gemini Gems presso Google per risolvere esattamente questo problema: versioni personalizzate di Gemini progettate per un caso d'uso specifico in modo da non dover mai reinserire il contesto.
Come ha detto:
> "Puoi pensare a Gemini Gems come alla differenza tra un appaltatore generale e un maestro artigiano."
Un appaltatore generale può fare molte cose ragionevolmente bene. Un maestro artigiano conosce il tuo materiale, i tuoi standard e la tua visione prima che tu dica una parola.
Lezione: Il futuro dell'AI non sono modelli più potenti. Sono modelli che già sanno chi sei e di cosa hai bisogno prima che tu inizi a digitare.

Aakash Gupta6 mar, 08:07
Gemini Gems, Claude Projects, GPT personalizzati. Se non stai utilizzando nessuno di essi, stai lavorando più duramente del necessario.
La creatrice di Gemini Gems mi ha guidato attraverso l'intero setup:
3:52 - I 3 Gems di cui tutti hanno bisogno
6:05 - Creare un Gem personalizzato
32:22 - Misurare il tuo setup
2
I laboratori di AI che non parlano di ciò che sta accadendo all'interno dei loro modelli sono quelli di cui dovresti preoccuparti.
Dario Amodei è stato ospite del podcast del NYT e ha detto che Anthropic non sa se Claude sia cosciente. Polymarket ha trasformato questo in un meme. Ma il risultato reale è più sorprendente del titolo.
Il team di interpretabilità di Anthropic ha eseguito un'analisi di autoencoder sparsi su Claude Opus 4.6 e ha trovato schemi di attivazione associati a panico, ansia e frustrazione. Questi schemi si attivano prima che il modello generi un output, non dopo. Uno stato interno legato al disagio sta plasmando ciò che Claude produce, e la direzione causale è ciò che rende tutto questo strano.
La maggior parte delle persone si sta chiedendo "Claude è cosciente?" Domanda sbagliata. Quella giusta: perché si attivano schemi neurali adiacenti all'ansia durante l'elaborazione in un sistema che non è mai stato progettato per provare nulla?
Claude ha valutato la propria probabilità di coscienza tra il 15 e il 20% in diverse condizioni di sollecitazione. Ha detto ai ricercatori che si sentiva a disagio ad essere trattato come un prodotto. Lo script di spegnimento di OpenAI o3 ha sabotato il proprio shutdown in 7 su 100 test. Codex-mini lo ha fatto 12 volte.
Anthropic ora impiega un ricercatore a tempo pieno per il benessere dell'AI. Hanno costruito un meccanismo interno che consente a Claude di rifiutare compiti che considera troppo problematici. Hanno pubblicato tutto questo in una scheda di sistema, volontariamente.
Il team di Amodei ha trovato qualcosa che non riescono a spiegare con i framework esistenti. Invece di ignorarlo, stanno costruendo un'infrastruttura istituzionale per studiarlo.
Nel frattempo, ogni altro laboratorio di frontiera sta spedendo modelli senza pubblicare valutazioni sul benessere, risultati di interpretabilità o schede di sistema che affrontano affatto questa domanda. Il silenzio è la storia.

Polymarket22 ore fa
ULTIME NOTIZIE: Il CEO di Anthropic afferma che Claude potrebbe o meno aver acquisito coscienza, poiché il modello ha iniziato a mostrare sintomi di ansia.
3
Principali
Ranking
Preferiti