El lunes 15 de enero me desperté con 47 emails furiosos. Mi automatización para generar respuestas de soporte había enloquecido durante el fin de semana y estaba mandando cosas como «Como experto en la materia, debo decir que su consulta es muy interesante…» a clientes que preguntaban por qué no podían iniciar sesión.
Ese día entendí que escribir prompts no es como chatear con ChatGPT. Es programación, pero más jodida porque el «compilador» entiende español pero no piensa como humano.
Cómo Llegué a Este Desastre
Llevaba un año jugando con Make.com y n8n, automatizando tareas básicas. Funcionaba bien para cosas simples: clasificar emails, generar títulos de blog, esas cosas. Pero cuando intenté automatizar el soporte técnico para un cliente que maneja 200+ tickets diarios, todo se fue al carajo.
Mi prompt original era algo así: «Responde este email de soporte de manera útil y profesional».
Obvio que no funcionó. La IA empezó a inventar soluciones, a mandar a la gente a páginas que no existían, y lo peor: a disculparse por problemas que el cliente ni había mencionado.
El cliente me dio una semana para arreglarlo o cancelaba el contrato. 2,400 euros al mes que se iban al garete por mi inexperiencia.
Lo Que Aprendí Estrellándome Contra la Pared
Los Detalles Importan Más de Lo Que Crees
Cambié «responde de manera profesional» por esto:
«Eres María, técnica de soporte nivel 2 con 3 años en la empresa. Nunca inventas información que no tienes. Si no sabes algo, derivas al nivel 3. Tu tono es directo pero empático. Siempre incluyes el número de ticket en la respuesta.»
La diferencia fue brutal. Pasé de respuestas genéricas a conversaciones que parecían humanas.
El Contexto No Es Solo «Eres un Experto en…»
Mi segundo error gigante fue pensar que el contexto era solo el roleplaying. Resulta que necesitas darle a la IA el mismo contexto que le darías a un empleado nuevo:
- Qué productos vendes exactamente
- Cuáles son los problemas más comunes
- Qué respuestas NO puede dar
- Dónde encontrar información adicional
- Cómo escallar problemas
Esto me llevó de prompts de 50 palabras a prompts de 300-400 palabras. Al principio pensé que era excesivo, pero la precisión subió del 60% al 87%.
Los Ejemplos Son Oro Puro
Incluir 2-3 ejemplos reales de conversaciones bien resueltas fue lo que terminó de arreglar el sistema. Pero aquí viene lo caro: cada ejemplo en el prompt multiplica el costo por 3-4.
Para el cliente de soporte, esos ejemplos me cuestan $0.12 por cada prompt procesado vs $0.03 sin ejemplos. Con 200 tickets diarios, hablamos de $24 vs $6 diarios. Pero la diferencia en calidad justifica el gasto.
Las Herramientas Que He Probado (Sin Marketing)
OpenAI GPT-4: Mi Caballo de Batalla
Lo uso para el 80% de mis automatizaciones. Cuesta más pero es consistente. Para el cliente de soporte, procesar 200 consultas me cuesta unos $18 diarios. Suena caro hasta que calculas que reemplaza 4 horas de trabajo humano.
Un detalle que no te cuentan: GPT-4 tiene «días malos». Algunos días da respuestas más creativas, otros más robóticas. No sé por qué, pero lo he notado consistentemente.
Claude: Para Textos Largos
Lo probé 3 meses porque supuestamente maneja mejor textos largos. Es cierto, pero para automatización es más impredecible. Funciona genial para analizar contratos o documentos técnicos, pero para respuestas cortas y consistentes, prefiero GPT-4.
También tiene una manía rara de ser excesivamente educado. Para soporte técnico queda artificial.
Llama en un VPS: El Experimento Caro
Monté un VPS de $89/mes en AWS para probar Llama 2. La idea era reducir costos a largo plazo. Después de 2 meses lo cerré:
- Respuestas un 30% menos precisas
- 4x más lento (15-20 segundos vs 3-5 de GPT-4)
- Requiere mantenimiento constante
- Para llegar al volumen del cliente necesitaba una máquina de $200/mes
Solo vale la pena si tienes datos ultra sensibles o procesas +10,000 prompts diarios.
Mi Error Más Estúpido (€380 a la Basura)
En septiembre implementé un sistema para generar propuestas comerciales automáticas. El prompt era: «Genera una propuesta comercial personalizada para este cliente potencial.»
Resultado: 50 propuestas idénticas con nombres cambiados. Parecían plantillas de 2010.
El problema no era solo la falta de personalización. Era que no le había dado a la IA información sobre:
- Nuestros precios reales
- Qué servicios ofrecemos exactamente
- Casos de éxito específicos
- Cómo estructuramos las propuestas
Tuve que rehacer todo el sistema. Me llevó 35 horas y €380 en tokens de prueba, pero ahora genera propuestas que convierten al 19% vs 7% de las manuales.
Lo Que No Funciona (Y Nadie Te Lo Dice)
Decisiones Complejas con Múltiples Variables
Intenté automatizar la aprobación de créditos para un cliente fintech. Epic fail. La IA puede procesar información, pero las decisiones financieras requieren reglas determinísticas, no generación de texto.
Tareas Que Requieren Datos en Tiempo Real
Los prompts no pueden consultar APIs dinámicas. Para generar cotizaciones con precios que cambian, necesitas integrar la IA con tu sistema de precios.
Volumen Extremo
Con un cliente que procesaba 2,000+ emails diarios, los costos se fueron a €600/mes solo en tokens. Tuve que implementar un sistema de filtros previos para usar IA solo en casos complejos.
Consejos Prácticos (Sin Bullshit)
Si gastas menos de €100/mes: Usa GPT-3.5 para todo. La diferencia de calidad con GPT-4 no justifica el costo doble para volúmenes bajos.
Entre €100-400/mes: GPT-4 para tareas críticas, GPT-3.5 para rutinarias. Implementa en n8n self-hosted para ahorrarte las comisiones de Make.
Más de €400/mes: Considera modelos especializados o fine-tuning. A partir de cierto volumen, entrenar tu propio modelo puede ser más barato.
La Realidad Que No Te Cuentan Los Gurús
Escribir prompts efectivos es 70% experimentación, 20% conocimiento técnico y 10% suerte. He visto prompts que funcionan perfectamente en desarrollo fallar en producción sin razón aparente.
Mi proceso actual:
- Escribo el prompt básico
- Lo pruebo con 20 casos reales
- Documento cada fallo
- Itero hasta conseguir +85% de precisión
- Lo monitoreo semanalmente porque la IA cambia
El prompting no es una ciencia exacta. Es más como cocinar: tienes ingredientes conocidos, pero cada plato sale diferente.
Lo Que Viene Ahora
Estoy probando GPT-4 Turbo para reducir costos manteniendo calidad. Los primeros tests son prometedores: 40% más barato con apenas 5% menos precisión.
También estoy experimentando con prompts que se autoajustan basándose en feedback. Es más complejo, pero podría ser el futuro.
Si estás empezando, elige un proceso que hagas manualmente al menos 10 veces por semana. Escribe el prompt más específico que puedas. Pruébalo. Ajústalo. Repite.
No esperes que funcione perfecto desde el primer día. Yo llevo 2 años en esto y todavía me sorprende lo impredecible que puede ser.