Investigadores enseñan a los robots lo que quieren los humanos

Dorsa Sadigh,profesora asistente de ciencias de la computación e ingeniería eléctrica, y su laboratorio han combinado dos formas diferentes para establecer objetivos para robots en un único proceso teniendo una gran eficiencia en simulaciones y experimentos del mundo real.Los investigadores presentaron el trabajo en la conferencia robotica:Ciencia y sistemas

“En el futuro, queremos que haya más sistemas autónomos en el mundo y que se les inculque algún concepto de lo que es bueno y lo que es malo“, dijo Andy Palan, estudiante graduado en ciencias de la computación y co-autor principal de el papel. 
“Es crucial, si queremos sacar partido de estos sistemas autónomos, que lo hagamos bien”.
El nuevo sistema del equipo para proporcionar instrucción a los robots, conocido como funciones de recompensa, combina demostraciones en las que los humanos le muestran qué hacer al robot y encuestas de preferencias del usuario, en las que las personas responden preguntas sobre cómo quieren que se comporte el robot.
“Las demostraciones son informativas pero pueden ser ruidosas. Por otro lado, las preferencias proporcionan, a lo sumo, un poco de información, pero son mucho más precisas”, dijo Sadigh. 
Nuestro objetivo es que podamos obtener lo mejor de ambos mundos y combinar los datos provenientes de estas dos fuentes de manera más inteligente para aprender mejor sobre la función de recompensa preferida de los humanos“.

ENCUESTAS Y LAS DEMOSTRACIONES

Aunque en trabajos anteriores, Sadigh solo se había centrado en las encuestas de preferencias, el grupo desarrolló una forma de producir múltiples preguntas a la vez acelerando el proceso unas 20 veces en comparación con las preguntas de una en una.

Este nuevo sistema comienza a funcionar cuando una persona demuestra un comportamiento hacia el robot, esto da mucha información a los robots autónomos teniendo estos que esforzarse para determinar que partes de la demostración son importantes.

“estudios anteriores han demostrado que las personas quieren que los autos autónomos conduzcan con menos agresividad que ellos mismos“.

Erdem Biyik, un estudiante graduado en ingeniería eléctrica

 

Ahí es cuando entran la importancia de las encuestas, ya que le da al robot una forma de preguntar, por ejemplo si el usuario quiere mover el brazo hacia arriba o hacia abajo.

El equipo descubrió que combinar estas demostraciones y encuestas es más rápido que si solo se especificaran las preferencias, aproximadamente el 80% de las personas prefería el comportamiento del robot cuando se entrenaba con el sistema combinado

 “Nuestro trabajo es hacer que sea más fácil y eficiente para los humanos interactuar y enseñar robots, y estoy entusiasmado por llevar este trabajo más allá, en particular al estudiar cómo los robots y los humanos pueden aprender unos de otros”.

 Sadi


MÁS RÁPIDO Y MÁS INTELIGENTE

Algunas personas que utilizaron el método combinado tuvieron dificultades para entender a que se refería el sistema con algunas de sus preguntas, este problema viene por el aprendizaje basado en las preferencias

“Ser capaz de diseñar funciones de recompensa para sistemas autónomos es un problema grande e importante que no ha recibido toda la atención en el mundo académico como se merece”.

Palan.

Fuente original www.sciencedaily.com/releases/2019/06/190624124457.htm

TAMBIÉN TE PUEDE INTERESAR…

Deja un comentario