El reciente advenimiento de la
inteligencia artificial generativa* ya ha revolucionado nuestras vidas y sociedades, gracias a herramientas como Chat-GPT o Gemini. Por ahora, la IA generativa se utiliza esencialmente para generar datos multimedia (edición de texto, resumen, retoque fotográfico, generación de videos, etc.).
Sin embargo, en un futuro cercano, también podrá generar datos más técnicos, como los producidos experimentalmente en los laboratorios de investigación universitaria. Esto tendrá consecuencias sin precedentes en la producción de conocimiento científico, que conviene anticipar, sobre todo porque la IA puede
alucinar*.
La complejidad de la biología molecular es tal que entre la masa de datos correspondientes, pequeñas alucinaciones podrían pasar desapercibidas, conduciendo a conclusiones erróneas (por ejemplo, un biomarcador inexistente) con consecuencias devastadoras, como la corrupción de la literatura científica o el financiamiento de ensayos clínicos sin interés. No obstante, prohibir la IA generativa en la investigación científica privaría a las comunidades científica y médica de herramientas poderosas.
Para hacer frente a este dilema, los investigadores del CEA-Irig han propuesto catalogar diversos casos de uso donde la IA puede ser utilizada con total fiabilidad gracias a una política adecuada de mitigación de riesgos. Sus trabajos presentan una decena de casos de uso clasificados en tres categorías:
1 - La generación de nuevas hipótesis,
2 - la generación de nuevos datos,
3 - la mejora de los software de biología computacional.
Ejemplo de caso de uso
Completar una cohorte generando datos adicionales sobre pacientes en el grupo de pacientes enfermos (
en verde o grupo "
test") sería muy arriesgado, ya que cualquier alucinación no detectada conduciría a una representación sesgada de la enfermedad.
Por el contrario, completar el grupo de pacientes sanos (
en rojo) que sirve de control en el estudio puede ajustarse a una política de mitigación de riesgos: primero, porque las alucinaciones no detectadas conducirían aquí a una mayor diversidad dentro del grupo de control, lo cual se sabe que es un medio eficaz para limitar los riesgos de descubrimientos falsos. Luego, porque los pacientes sanos han sido admitidos con más frecuencia en los estudios de cohorte, de modo que los datos potencialmente disponibles para entrenar a la IA son más numerosos, más robustos y más coherentes.
Este ejemplo ilustra cómo un algoritmo de IA generativa dado, adaptado a una tarea dada, puede ser utilizado de diferentes maneras, con una exposición diferente a los riesgos inducidos por las alucinaciones.
Aunque no son exhaustivos, estos usos constituyen una primera base para una integración correcta de la IA generativa en el proceso científico, ya que incitan a los investigadores a adoptar una mirada crítica sobre su utilización.
Notas:
*Inteligencia Artificial Generativa se refiere a algoritmos que son capaces no solo de analizar datos y tomar decisiones o hacer predicciones, como las herramientas clásicas de inteligencia artificial (IA), sino que también pueden generar nuevos datos.
*Alucinaciones: ocurren cuando una IA generativa responde a una consulta (también llamada "prompt") generando detalles que parecen plausibles en algunos aspectos, pero que son erróneos (por ejemplo, una referencia a un artículo inexistente) o imposibles según ciertas restricciones del mundo real que la IA generativa ignora (por ejemplo, el presidente estadounidense Abraham Lincoln comentando sobre internet, como en la ilustración al principio del artículo).
Fuente: CEA IRIG