Multimodalidad real: quién procesa audio y video nativamente en 2026
11 jun 2026
"Multimodal" se convirtió en término de marketing. Casi todo modelo lanzado en 2026 se describe como multimodal. Pero hay una diferencia técnica fundamental entre un modelo que acepta imágenes vía un módulo agregado después del entrenamiento y uno que fue entrenado con todas las modalidades desde el inicio. En producción, esa diferencia se manifiesta en calidad de razonamiento, coherencia de respuesta y, especialmente, capacidad de procesar audio y video — no solo imágenes estáticas.
Qué significa "nativo" técnicamente
Los modelos multimodales pueden construirse de dos formas.
La primera es la fusión temprana (early fusion): los datos de texto, imagen, audio y video se convierten en tokens desde el inicio del pipeline de entrenamiento. El modelo aprende representaciones conjuntas de todas las modalidades simultáneamente. Cuando le preguntas al modelo sobre el contenido de un video, razona sobre el video de la misma forma que razona sobre el texto — no es una operación separada.
La segunda es la fusión tardía (late fusion): un modelo de texto recibe inputs de otros encoders como "visión" o "audio" como módulos adicionales. Es más fácil de construir, pero el modelo no aprende relaciones profundas entre modalidades durante el pre-entrenamiento. El resultado tiende a ser un razonamiento multimodal más superficial y menor robustez cuando las modalidades necesitan integrarse.
La mayoría de los modelos multimodales de 2024 usaba fusión tardía. En 2026, los líderes migraron a la fusión temprana — pero la adopción no es universal.
El mapa de las capacidades en mayo de 2026
Gemini 3.1 Pro (Google): El líder actual en multimodalidad nativa completa. Procesa texto, imagen, audio, video y PDF en una ventana de contexto unificada de 1 millón de tokens. Es el único modelo de frontera que acepta los cinco tipos de input nativamente en la misma llamada de API. Contexto de 64K tokens de output. Costo: US$ 2,00/US$ 12,00 por millón de tokens. GPQA Diamond: 94,3%.
GPT-5.5 (OpenAI): Texto, imágenes y audio. El soporte de video es limitado — el modelo no procesa video directamente como stream; la extracción de frames sigue siendo necesaria para la mayoría de los casos. Computer use mejorado es lo destacado de la actualización de abril.
Claude Opus 4.7 (Anthropic): Solo texto e imágenes. El audio y el video nativos no son soportados. El foco de Anthropic ha sido el razonamiento, el código y la agencia — no la expansión multimodal. Para casos de uso que requieren procesamiento de audio o video, Claude no es la opción en mayo de 2026.
Llama 4 Scout/Maverick (Meta): Texto e imagen vía fusión temprana — el primer modelo abierto con MoE multimodal nativo. El video y el audio no son soportados. Para un modelo abierto, el nivel de integración texto-imagen es superior a lo que estaba disponible antes.
Gemma 4 E2B/E4B (Google): Los únicos modelos open source con video y audio nativos, vía fusión temprana, diseñados para correr en dispositivos edge. La limitación es el tamaño: son modelos de 2 y 4 mil millones de parámetros efectivos, con una capacidad general más limitada que los modelos mayores.
Grok 4.3 (xAI): Texto, imagen y video nativo — procesamiento directo de archivos de video sin extracción de frames. El audio no está listado como modalidad soportada. Este es uno de los diferenciadores del 4.3 respecto al 4.20.
Por qué el audio nativo cambia los casos de uso
La mayoría de las aplicaciones que procesan audio hoy usan un pipeline separado: transcripción vía Whisper o equivalente, seguida de procesamiento de texto por el LLM. Funciona, pero tiene limitaciones.
La transcripción pierde información paralingüística — entonación, pausas, énfasis emocional. Un modelo con audio nativo puede inferir el humor, la certeza o la vacilación directamente de la forma en que algo fue dicho, no solo de lo que fue dicho. Para el análisis de llamadas de atención al cliente, entrevistas y reuniones, esa dimensión es relevante.
El pipeline de transcripción+texto también agrega latencia y costo. Para aplicaciones de tiempo real — asistentes de voz, transcripción en vivo con análisis simultáneo — la latencia del pipeline doble puede ser prohibitiva. Los modelos con audio nativo eliminan una etapa.
Por qué el video nativo cambia los casos de uso
El video está compuesto por frames (imágenes) más audio, más la dimensión temporal entre frames. Extraer frames y procesarlos como imágenes individuales pierde el contexto temporal — lo que cambió entre el frame 1 y el frame 100, el movimiento, la secuencia de eventos.
El procesamiento de video nativo captura la dimensión temporal. Para análisis de seguridad (cámaras CCTV), monitoreo industrial, análisis de deportes o procedimientos médicos grabados, la secuencia importa tanto como el frame individual.
Gemini 3.1 Pro en el contexto de 1 millón de tokens puede procesar videos largos, no solo clips cortos. Para revisión de documentación en video, análisis de capacitaciones o auditorías de proceso, esto abre casos de uso que antes exigían un análisis humano completo.
La frontera de 2026: Video en tiempo real
Lo que aún no existe en ningún modelo comercialmente disponible de forma confiable en mayo de 2026 es el procesamiento de video en vivo — stream de cámara en tiempo real con razonamiento simultáneo.
Hay demostraciones técnicas y previews en algunos laboratorios. Pero para producción estable, la frontera actual es el video grabado, no el stream en vivo. Para IoT industrial con cámaras en tiempo real, todavía hay dependencia de pipelines híbridos con procesamiento especializado de visión computacional antes del LLM.
Esta es la próxima barrera — y la carrera para superarla ya está en marcha.