Construir un buen producto de notas no es elegir el modelo más nuevo. Es orquestar tres modelos en el orden correcto y saber cuándo cada uno gana.
Capa 1 — Transcripción
Empezamos con Whisper Large v3 (OpenAI) self-hosted en GPUs propias. Razones:
- Multilingüe nativo (>90 idiomas con buena calidad).
- Robustez frente a ruido sin equivalente comercial.
- Coste predecible al ejecutarlo nosotros.
Para audio largo (>30 min), pre-segmentamos con VAD (voice activity detection) para evitar que el modelo se pierda. Para idiomas mixtos en la misma reunión, hacemos detección por chunk y enviamos cada uno a una pasada específica.
Capa 2 — Diarización + alineación
Como contamos en el artículo dedicado, esta capa es propia: embeddings + clustering + prosodia. La salida es la transcripción de Whisper enriquecida con etiquetas de speaker en cada turno.
Capa 3 — Síntesis (LLM)
Aquí usamos Gemini 2.5 Pro como modelo principal por tres razones:
- Contexto largo: 1M de tokens. Una reunión de 90 minutos cabe sin truncar.
- Calidad en español: en nuestros benchmarks supera a GPT-4 en resúmenes de reuniones reales en castellano.
- Coste/rendimiento: a la hora de la verdad, hace lo mismo que modelos premium con menos coste.
Para tareas específicas (clasificación de tareas, extracción de fechas) usamos modelos más pequeños y baratos — no es necesario un cañón para ese trabajo.
Capa 4 — Chat sobre la nota
Esta es la capa que más cariño le tenemos. Usamos retrieval con embeddings sobre la propia transcripción + diarización: cuando preguntas algo, recuperamos el fragmento exacto y se lo damos al modelo. Esto significa que las respuestas tienen citas verificables (timestamp + texto literal).
El principio
Cada modelo está donde es mejor, no donde es más vistoso. El stack se actualiza cuando un modelo nuevo gana en evaluaciones reales contra el actual — no cuando sale un anuncio.
¿Listo para probarlo?
Graba tu próxima reunión y obtén un resumen accionable en segundos.
Empieza gratis