Algunas notas que parecen obvias pero que me servirán de ayudamemoria para las mejoras a futuro:
- es necesario utilizar la misma función para generar los embeddings tanto en el caso del texto de entrada como para las query realizadas por el usuario
- es necesario incorporar nuevas métricas además de la similitud semántica (cosine_similarity, la cual ya está implementada). Evaluar las opciones disponibles e incorporar al menos dos o tres más al modelo.
- decidir si utilizar una base de datos Chroma persistente o no, dependiente de la duración del proyecto.
- decidir cuál será el k utilizado que definirá cuentas respuestas relevantes traerá el RAG, vi varios ejemplos utilizando un valor igual a tres. Leer al respecto y decidir cuál es el valor recomendado para el contexto del asistente virtual. Considerar que a veces puede no encontrar una respuesta y se debe devolver una respuesta la usuario. Link: https://github.com/pixegami/langchain-rag-tutorial
- decidir si los documentos que alimentarán al RAG serán sólo de Latinoamérica o también incluiré aquellos con autores/universidades de España.
Algunas notas que parecen obvias pero que me servirán de ayudamemoria para las mejoras a futuro: