Desarrollan una IA que puede aprender e imitar la caligrafía humana
Miércoles 17 de
Enero 2024
Investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed de Abu Dabi, en los Emiratos Árabes Unidos, desarrollaron una nueva IA generativa capaz de imitar el formato y el trazo de la escritura manual de los usuarios con tan solo unos párrafos de ejemplo.
Investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed (Mbzuai) de Abu Dabi (Emiratos Árabes Unidos) desarrollaron una nueva inteligencia artificial (IA) generativa capaz de imitar el formato y el trazo de la escritura manual de los usuarios con tan solo unos párrafos de ejemplo.
El profesor asistente del área de Visión por ordenador de Mbzuai, Hisham Cholakkal, comenzó este proyecto por simple curiosidad, cuando quiso saber si un modelo de IA podría ser capaz de aprender el estilo de escritura de una persona al brindarle un fragmento de texto escrito por ella, según un cable de la agencia DPA.
Entonces, su equipo de investigadores observó que ya existían trabajos anteriores relacionados con este enfoque y que se habían desarrollado empleando la técnica de aprendizaje automático ('machine learning') de red generativa antagónica (GAN).
La escritura a mano generada por las GAN captura el estilo general de un usuario, teniendo en cuenta aspectos como la inclinación con la que escribe o el ancho de los trazos de sus letras.
Sin embargo, estas redes tienen dificultades a la hora de reproducir las ligaduras de las palabras, esto es, la unión de dos o más grafemas en una única palabra.
En lugar de las GAN, los investigadores de esta universidad utilizaron los llamados transformadores de visión (ViT, por sus siglas en inglés), un modelo de procesamiento visual que se utiliza en el reconocimiento de imágenes y que utilizaron para imitar la escritura a mano, como detallan en una publicación en la web de la universidad.
En este sentido, los investigadores explicaron que esta solución permite a los ViT procesar lo que se conoce como dependencias de largo alcance, un concepto relacionado con cómo las partes de una imagen que están físicamente distantes entre sí pueden guardar relación entre ellas.
Con ello, determinaron que, para imitar el estilo de escritura de alguien, se debe observar algunos párrafos escritos a mano para comprender "cómo el autor enlazó los caracteres y las letras o cómo espació las palabras", según el vicepresidente del Departamento de Visión por Computadora y profesor de esta área, Fahad Shahbaz Khan.
Si bien el estudio inicial se centró en generar textos que imitasen la escritura a mano en inglés, los investigadores están interesados en aplicar esta tecnología a otros idiomas, como el árabe, cuyo análisis presenta mayores dificultades, debido a la manera en que se conectan sus letras.
A pesar de las posibilidades beneficiosas que ofrece esta idea, los creadores son conscientes de que podría utilizarse de forma ilegal, debido a que la escritura manual "representa la identidad de una persona", algo que están "pensando detenidamente" antes de implementarla.
La patente de esta herramienta, que se creó combinando tecnologías antiguas y contemporáneas, se registró recientemente en la Oficina de Patentes y Marcas de Estados Unidos, y podría ser de ayuda para las personas que tienen problemas para escribir o sostener un lápiz o un bolígrafo.
El profesor asistente del área de Visión por ordenador de Mbzuai, Hisham Cholakkal, comenzó este proyecto por simple curiosidad, cuando quiso saber si un modelo de IA podría ser capaz de aprender el estilo de escritura de una persona al brindarle un fragmento de texto escrito por ella, según un cable de la agencia DPA.
Entonces, su equipo de investigadores observó que ya existían trabajos anteriores relacionados con este enfoque y que se habían desarrollado empleando la técnica de aprendizaje automático ('machine learning') de red generativa antagónica (GAN).
La escritura a mano generada por las GAN captura el estilo general de un usuario, teniendo en cuenta aspectos como la inclinación con la que escribe o el ancho de los trazos de sus letras.
Sin embargo, estas redes tienen dificultades a la hora de reproducir las ligaduras de las palabras, esto es, la unión de dos o más grafemas en una única palabra.
En lugar de las GAN, los investigadores de esta universidad utilizaron los llamados transformadores de visión (ViT, por sus siglas en inglés), un modelo de procesamiento visual que se utiliza en el reconocimiento de imágenes y que utilizaron para imitar la escritura a mano, como detallan en una publicación en la web de la universidad.
En este sentido, los investigadores explicaron que esta solución permite a los ViT procesar lo que se conoce como dependencias de largo alcance, un concepto relacionado con cómo las partes de una imagen que están físicamente distantes entre sí pueden guardar relación entre ellas.
Con ello, determinaron que, para imitar el estilo de escritura de alguien, se debe observar algunos párrafos escritos a mano para comprender "cómo el autor enlazó los caracteres y las letras o cómo espació las palabras", según el vicepresidente del Departamento de Visión por Computadora y profesor de esta área, Fahad Shahbaz Khan.
Si bien el estudio inicial se centró en generar textos que imitasen la escritura a mano en inglés, los investigadores están interesados en aplicar esta tecnología a otros idiomas, como el árabe, cuyo análisis presenta mayores dificultades, debido a la manera en que se conectan sus letras.
A pesar de las posibilidades beneficiosas que ofrece esta idea, los creadores son conscientes de que podría utilizarse de forma ilegal, debido a que la escritura manual "representa la identidad de una persona", algo que están "pensando detenidamente" antes de implementarla.
La patente de esta herramienta, que se creó combinando tecnologías antiguas y contemporáneas, se registró recientemente en la Oficina de Patentes y Marcas de Estados Unidos, y podría ser de ayuda para las personas que tienen problemas para escribir o sostener un lápiz o un bolígrafo.
Con información de
Télam Digital