¿Recuerdas el revuelo en torno a los gadgets de IA como el Rabbit R1 el año pasado? La idea de un pequeño dispositivo parlante que reemplazara nuestros smartphones era cautivadora. Aunque estos gadgets no cumplieron totalmente su promesa, desencadenaron una nueva tendencia: IA agentic. Ahora, gigantes de la tecnología como Google están sumergiéndose de lleno en el desarrollo de IA que puede manejar tareas por ti, como codificación, programación de citas o compras en línea.

Gemini de Google en Chrome es un paso en esta dirección, pero sus capacidades están limitadas al navegador. Si deseas automatizar tareas en todas tus aplicaciones Android, probablemente estés atrapado con herramientas de terceros complicadas, como Tasker. El Project Astra, el proyecto experimental de IA de Google, tiene como objetivo cambiar esto.

En Google I/O, mostraron a Astra controlando un teléfono Android, encontrando información y buscando en YouTube perfectamente. Para lograr esto, Astra graba la pantalla y envía comandos para iniciar aplicaciones o desplazar páginas.

Aunque la demostración destacó el potencial de los agentes de IA en Android, también reveló algunos desafíos. El video acelerado sugirió que el procesamiento de IA aún es bastante lento. Esto podría no ser un problema cuando tus manos están ocupadas, pero podría ser irritante en el uso diario. Un agente de IA lento podría dejar tu teléfono atado e interrupciones comunes, como notificaciones, podrían interferir en su operación.

Una Nueva Estructura: Control de Computadora

Para resolver estos problemas, Google ha estado desarrollando una nueva estructura llamada Control de Computadora, diseñada para que los agentes de IA controlen las aplicaciones Android sin problemas en segundo plano. Al indagar en el código de Android, he descubierto algunos detalles interesantes sobre esta característica futura. El Control de Computadora aprovecha el Virtual Device Manager (VDM), introducido con Android 13. Este sistema permite que crees pantallas virtuales separadas de la pantalla principal. Las aplicaciones pueden ejecutarse en estas pantallas virtuales y transmitirse a otro dispositivo, que puede enviar comandos como clics o pulsaciones de teclado.

Esta estructura exige que las aplicaciones cliente especifiquen las propiedades de la pantalla virtual y si la pantalla debe permanecer desbloqueada cuando el dispositivo esté bloqueado. Esto permitirá el control autónomo. Además, las aplicaciones cliente pueden acceder a fotogramas de visualización brutos, que pueden transmitirse a un dispositivo remoto para análisis.

Para privacidad y seguridad, el uso del Control de Computadora está restringido a aplicaciones confiables que poseen el permiso ACCESS_COMPUTER_CONTROL. Este permiso se otorga solo a aplicaciones firmadas con un certificado digital permitido en el SO. Antes de que una aplicación pueda iniciar una sesión de Control de Computadora, debe obtener la aprobación explícita del usuario. De esta forma, las aplicaciones comunes no podrán controlar otras sin tu aprobación.

Aunque ha sido diseñado para que clientes confiables analicen datos de pantalla y automaticen tareas, queda por ver cómo estos clientes controlarán las aplicaciones. ¿Se realizará el procesamiento en una PC remota, similar al funcionamiento del Rabbit R1? ¿O será tratado localmente por un modelo de IA en el dispositivo, como Gemini Nano? Aunque el primero parece más probable, el último sería más privado, pero podría sobrecargar los recursos del dispositivo.

Estoy entusiasmado con los esfuerzos de Google para construir una estructura adecuada para IA agentic en Android. El Control de Computadora tiene el potencial de automatizar completamente tus aplicaciones, ahorrando tiempo y mejorando la accesibilidad. Como los agentes de IA no siempre aciertan, Google incluyó la capacidad de reflejar la automatización en una pantalla interactiva, permitiendo que los usuarios supervisen y realicen ajustes según sea necesario.