tbh evaluar rag es un dolor de cabeza, las metricas de trulens o ragas a veces dan falsos positivos smh. al final lo mejor es crear un dataset de prueba curado a mano con expertos humanos, aunque tarde una eternidad.
You make a valid point. Hybrid evaluation—combining automated metrics with human validation—remains the gold standard. Hand-curated test suites are indispensable for calibrating the automated heuristics, especially in highly regulated sectors.