
Anthropic revela que tan solo 250 documentos maliciosos pueden crear backdoors en cualquier modelo
Un pequeño número de samples puede envenenar LLMs de cualquier tamaño Pensabas que los modelos de lenguaje (Large Language Models, LLMs), entrenados con petabytes de datos, eran "inmunes" a unas pocas "manzanas podridas"?. Bueno, te equivocabas. Un estudio reciente de Anthropic reveló una verdad incómoda: tan