10 años de lecciones de ciencia de datos para el bien social

xguru · 2025-01-23T09:46:01+09:00

Cuando DrivenData comenzó en 2014, el uso de la ciencia de datos para el bien social todavía estaba en una etapa temprana En ese momento, las técnicas de ciencia de datos se usaban principalmente en empresas como Netflix y Amazon para marketing y recomendaciones de contenido, y casi no había casos de uso para organizaciones sin fines de lucro, ONG, empresas sociales o servicios gubernamentales Objetivos iniciales y contexto El talento en ciencia de datos era muy escaso y el costo de contratación era alto, y esa brecha era aún más grave en organizaciones que abordan problemas sociales Surgió en el Harvard Innovation Lab con la intención de cerrar la brecha de capacidades en ciencia de datos para problemas sociales El objetivo era resolver grandes desafíos sociales del mundo aprovechando técnicas de punta en ciencia de datos y crowdsourcing Dos citas que reflejan la visión de ese momento "Hacer que los macrodatos sean útiles para la toma de decisiones humanitarias es uno de los principales desafíos y oportunidades de la era de las redes" – UN OCHA "Las mejores mentes de mi generación están pensando en cómo hacer que la gente haga clic en anuncios… Es realmente frustrante." – Jeff Hammerbacher, exgerente de datos de Facebook Cambios en los últimos 10 años Se han realizado diversos intentos por aplicar la ciencia de datos y la IA al impacto social Más de 150 proyectos y colaboración con alrededor de 80 socios (Banco Mundial, Fundación Bill & Melinda Gates, NASA, entre otros) Se organizaron más de 75 competencias de ciencia de datos, con más de USD 4.7 millones en premios Durante la última década, DrivenData ha acumulado buenas prácticas y lecciones al buscar el bien social a través de la ciencia de datos En este punto, quieren aprovechar la oportunidad para reflexionar en conjunto sobre qué ha funcionado, qué sigue siendo desafiante y qué dirección tomar para construir un futuro mejor Avance de 10 lecciones clave Casos en los que la ciencia de datos ha funcionado bien La ciencia de datos tiene un impacto significativo en los problemas sociales Los buenos datos conducen a buenas soluciones Los esfuerzos tienen más éxito cuando se enfocan en problemas concretos y necesidades humanas Es más eficaz cuando combina las fortalezas de las máquinas y las personas Las perspectivas multidisciplinarias y la flexibilidad benefician a las organizaciones Aspectos que siguen siendo desafiantes La ciencia de datos es una actividad iterativa de I+D, y el sector social invierte poco en ello Es difícil contratar y apoyar bien a los científicos de datos El open source carece de desarrollo de soluciones para personas no desarrolladoras La exageración tecnológica (hype wave) recibe demasiada atención La ciencia de datos y la IA tienen grandes implicaciones éticas, pero las herramientas y prácticas que apoyan su uso ético van rezagadas Los tiempos están cambiando En los últimos 10 años, la velocidad de avance de las tecnologías de datos e IA ha sido sorprendentemente rápida. Los principales factores de innovación que lo hicieron posible incluyen lo siguiente: Cómputo y almacenamiento La expansión del cloud computing y del almacenamiento ha hecho que los recursos necesarios sean más baratos y accesibles Se redujeron los costos iniciales, desde experimentos basados en GPU hasta el despliegue de clústeres escalables para ejecutar modelos en tiempo real Deep learning El deep learning trajo cambios transformadores a la ciencia de datos Hubo una explosión de arquitecturas efectivas, como las redes generativas antagónicas (GAN), transformers, autoencoders variacionales y redes neuronales de grafos Se desarrolló un ecosistema centrado en PyTorch y TensorFlow, y herramientas, librerías y modelos preentrenados aceleraron aún más el ritmo de avance Democratización del acceso a la tecnología La ciencia de datos llegó a ser llamada "el trabajo más sexy del siglo XXI", y las oportunidades de aprendizaje crecieron de forma explosiva Gracias a MOOCs, bootcamps y competencias de datos, más personas adquirieron habilidades básicas de ciencia de datos IA generativa La aparición de los modelos de lenguaje de gran tamaño (LLM) ha cambiado la forma de trabajar Ha reducido el tiempo necesario para tareas complejas y abierto nuevas posibilidades Aún se evalúa si la IA generativa es una moda pasajera o una innovación real, pero está claro que la IA seguirá usándose de forma continua A pesar de estos cambios tecnológicos, se observan varios patrones comunes que trascienden tecnologías específicas. Este texto se centra en lo que ha funcionado bien durante la última década y en lo que sigue siendo un reto. Casos en los que la ciencia de datos ha funcionado bien La ciencia de datos tiene un impacto significativo en los problemas sociales Situación hace 10 años El potencial de las herramientas de ciencia de datos era claro, pero su aplicación al impacto social era limitada En ese entonces, la discusión se limitaba a unos pocos casos y avanzaba principalmente en torno a ideas sobre posibilidades futuras Avances actuales Los modelos de machine learning influyen en la toma de decisiones en diversos campos, como la atención médica y la gestión de recursos naturales La ciencia de datos ayuda a gestionar problemas como las floraciones de algas nocivas, la pesca insostenible y los desastres naturales provocados por el cambio climático, además de contribuir a la inclusión financiera y la conservación de la vida silvestre En el ámbito público, la visualización de datos se ha consolidado como un medio clave para la cobertura periodística y la comunicación de mensajes Ejemplo: campañas para frenar la propagación de COVID-19, dashboard de la OMS Caso concreto con imágenes satelitales En Yemen, se usaron imágenes satelitales para analizar tipos de cultivos y riesgos climáticos, aportando información al programa de seguridad alimentaria del Banco Mundial Contribución de la IA al avance científico AlphaFold: modelo de predicción de estructuras de proteínas que realiza en horas tareas que antes tomaban años, y ofrece gratuitamente a la comunidad científica las estructuras de todas las proteínas Modelos transformer: aplicados a la detección de discurso de odio en memes multimodales Tecnología de identificación individual: mejora el seguimiento de especies en peligro de extinción (como ballenas) y se ha extendido a varias especies Cambios en el sector social A mediados de la década de 2010, el debate sobre el uso de datos se concentraba principalmente en la "medición del impacto" Ahora, el foco está en cómo las herramientas de ciencia de datos transforman la forma en que operan las organizaciones y les otorgan nuevas capacidades Hoy la discusión se centra en lo que la ciencia de datos y la IA pueden "hacer", más allá de lo que se puede medir Los buenos datos conducen a buenas soluciones, y la accesibilidad a los datos ha mejorado mucho Mayor presencia cotidiana de los datos En todas las actividades se generan datos: compras, uso de servicios de emergencia, visitas al hospital y más Electrodomésticos, wearables, vehículos, teléfonos móviles y aplicaciones recopilan datos de uso El avance de sensores y cámaras ha incrementado el uso de datos de imágenes y video Dos etapas en el uso de los datos Registrar los datos en formato digital y hacerlos observables Evolucionar hacia una etapa en la que se aprende de los datos y se descubren patrones La IA y el machine learning se basan en los datos Una mayor cantidad y mejor calidad de datos permite explorar nuevos patrones y desarrollar algoritmos Ejemplos: detección de cáncer, algoritmo de recomendaciones de Spotify, datos de entrenamiento de ChatGPT La jerarquía de ciencia de datos de Monica Rogati Las capacidades avanzadas de la ciencia de datos requieren una base de datos sólida Una inversión inteligente en infraestructura de datos sienta las bases para implementar capacidades de nivel superior Uso de datos para el valor social Gobiernos e instituciones grandes han ampliado la apertura de datos públicos Tipos de datos utilizados por DrivenData: Datos meteorológicos, de tráfico y de OpenStreetMap: planificación del tráfico aéreo y apoyo a la resiliencia ante desastres Imágenes satelitales: mapeo de la extensión de inundaciones y estimación de biomasa forestal Datos de transacciones móviles: análisis de comportamientos y actitudes financieras Datos de encuestas: hallazgos sobre opiniones y comportamientos a gran escala Grabaciones de audio: clasificación del nivel de alfabetización infantil Imágenes de alta resolución: predicción de la probabilidad de recurrencia del melanoma Datos de texto: análisis automático de conceptos clínicos en notas médicas Importancia de la accesibilidad y usabilidad de los datos No basta con que los datos simplemente estén abiertos al público Cuando se ofrecen en formatos legibles por máquina, con documentación clara y casos de uso, aumenta la participación y el aprovechamiento Muchas organizaciones invierten en recolectar datos, pero descuidan la inversión adicional necesaria para aprovecharlos La documentación de datos y los casos de aplicación cumplen un papel tan importante como los premios de los desafíos Los esfuerzos tienen más éxito cuando se enfocan en problemas concretos y necesidades humanas Las trampas de un enfoque centrado en la tecnología Las organizaciones de impacto social a menudo intentan ponerse al día con las últimas tendencias tecnológicas El "big data" y las herramientas de IA pueden parecer soluciones universales, pero en la práctica son efectivas cuando se enfocan en resolver problemas concretos Claves para diseñar proyectos exitosos Definir usuarios y problemas específicos, y establecer objetivos medibles que permitan resolverlos Usar herramientas de diseño centrado en las personas para identificar lo que la gente "quiere" y desarrollar soluciones que vayan más allá de lo que es técnicamente "posible" Casos concretos Detección de floraciones de algas (CyFi) En colaboración con NASA, se detectan floraciones nocivas de cianobacterias mediante imágenes satelitales Ayuda a que los administradores del agua evalúen con precisión el estado de las floraciones y asignen recursos de manera eficiente Identificación de vida silvestre (Zamba) En colaboración con el Instituto Max Planck, se desarrolló una herramienta de identificación automática de animales usando datos de cámaras trampa Al incorporar retroalimentación de investigadores, se mejoró la UI en Zamba Cloud para aumentar la facilidad de uso La importancia de la perspectiva del usuario Definición del problema Comprender con claridad el problema y los requisitos mediante entrevistas con usuarios y recopilación de opiniones Reflejar la perspectiva humana detrás de los puntos de datos Entrega de la solución Se necesitan pruebas de UI/UX y una comunicación clara para que los usuarios puedan aprovechar la solución de forma efectiva y entender sus beneficios Ayudar a comprender de forma intuitiva las fortalezas y limitaciones del modelo, y explicar cómo usarlo mediante casos reales Conclusión El papel de los científicos de datos es conectar las capacidades técnicas con las necesidades sociales Los proyectos más efectivos son los que no se obsesionan con la tecnología más reciente, sino que se enfocan en resolver problemas y generar resultados concretos Las soluciones son más efectivas cuando combinan las fortalezas de las máquinas y las personas El riesgo de las expectativas exageradas sobre la IA Los modelos de ciencia de datos y la IA no son omnipotentes, y todos los modelos tienen algún grado de limitación El simple hecho de implementar IA no garantiza el éxito Las mejores soluciones surgen de sistemas que combinan las fortalezas de las máquinas y de las personas Caso de la herramienta Zamba Zamba predice probabilísticamente si hay animales en videos de cámaras trampa para fauna silvestre A veces el modelo puede equivocarse, pero las probabilidades que ofrece permiten diseñar estrategias de revisión eficientes Ejemplo: revisar primero los videos con mayor probabilidad de contener chimpancés, o establecer un umbral de probabilidad para considerarlos videos vacíos Como resultado, es posible identificar el 85% de los videos con chimpancés revisando menos del 5% del total Resultados de la colaboración entre máquina y persona Caso de detección de cáncer de mama con IA: cuando radiólogos e IA colaboran, logran mayor precisión que cada uno por separado Se enfatiza la interpretabilidad y explicabilidad de la IA: ofrecer información para que las personas puedan evaluar los resultados de la IA e integrarlos en su contexto Ejemplo: en una competencia de identificación de ballenas, el modelo proporcionó visualizaciones de las características usadas para emparejar a cada ballena individual Un patrón similar en la IA generativa La retroalimentación humana es esencial para el desarrollo de herramientas útiles como ChatGPT Los datos de retroalimentación permiten mejorar el modelo para que aprenda casos cada vez más difíciles Evaluación del costo de los errores y de las mejoras posibles El diseño del sistema puede mejorarse con dos preguntas: "Si existiera un modelo perfecto, ¿cómo lo usaríamos?" "Si ese modelo se equivocara a veces, ¿cómo responderíamos?" Esto permite identificar el nivel de error que el sistema puede tolerar y en qué partes se necesita revisión humana Lecciones para las organizaciones Caso del gobierno de los Países Bajos en 2021: un algoritmo inadecuado acusó erróneamente a 26,000 hogares de fraude en ayudas sociales Depender de algoritmos sin una revisión humana adecuada genera costos sociales elevados En cambio, combinar las fortalezas de algoritmos y personas permite maximizar la eficiencia y la efectividad Una perspectiva multidisciplinaria y la flexibilidad ayudan a las organizaciones Experiencia en proyectos de distintos campos Al trabajar en inclusión financiera, acción climática, salud y otros ámbitos, se han confirmado los beneficios de una perspectiva multidisciplinaria Es posible extender patrones de aprendizaje automático de un contexto específico a otros campos Ejemplo: aplicaciones entre modelos de visión por computadora para conservar bosques de kelp y modelos para detectar lesiones en biopsias cervicales Flexibilidad en el enfoque Problemas tan distintos como la detección temprana de plagas en cultivos y la extracción de habilidades de currículums se basan en reconocimiento de entidades nombradas (NER) Las lecciones y experiencias de enfoques previos pueden reutilizarse y aplicarse a otros problemas con menor costo Caso concreto Un enfoque de procesamiento de lenguaje natural para reconocer cultivos, plagas, enfermedades y químicos en mensajes de WhatsApp Ayuda a pequeños agricultores a detectar nuevas tendencias y mejorar recomendaciones basadas en evidencia científica Equilibrio entre experiencia especializada y perspectiva del usuario La colaboración con expertos del dominio garantiza un contexto adecuado para el problema Incluir la perspectiva del usuario en el proceso de ciencia de datos permite diseñar soluciones apropiadas Identificar el "trabajo que vale la pena hacer" La experiencia técnica por sí sola no basta; también se necesitan empatía, comunicación, curiosidad y flexibilidad Se debe hacer lluvia de ideas sobre áreas donde el aprendizaje automático pueda aportar valor, entendiendo a fondo para quién es el enfoque y cómo se usará Responder a las diversas necesidades de las organizaciones Las necesidades varían según la organización, desde investigación exploratoria hasta prototipado y producción Se trabaja con socios muy diversos, desde grandes organizaciones proveedoras de datos (Candid, NASA, etc.) hasta organizaciones que apenas están construyendo sus primeros sistemas de datos Es importante mantener la pertinencia de la tecnología y, al mismo tiempo, aprovechar con flexibilidad la riqueza de la experiencia Lo que sigue siendo desafiante La ciencia de datos es iterativa, y el sector social invierte poco en I+D La naturaleza y el valor de la I+D La investigación y el desarrollo son un proceso de aprendizaje que requiere inversión de capital, experimentación, reflexión y disposición a asumir fracasos Los métodos seguros y los enfoques de corto plazo tienen límites para resolver el tipo de problemas que requiere el sector social La inversión a largo plazo y la innovación no lineal generan resultados importantes Baja inversión del sector social en I+D Según una encuesta de la NSF de 2022, el 94% de las grandes organizaciones sin fines de lucro no realiza ninguna actividad de I+D Aunque la ciencia de datos es en gran medida una actividad de I+D, la inversión en esta área sigue siendo insuficiente La naturaleza iterativa de la ciencia de datos La ciencia de datos aprovecha ciclos iterativos de aprendizaje y retroalimentación para generar mejores resultados y mejorar la eficiencia de los servicios Se usan marcos que enfatizan la iteración, como el curso de ciencia de datos de Harvard y CRISP-DM (proceso estándar para minería de datos) La importancia de una ciencia de datos centrada en las personas El proceso de aprendizaje se enfoca en diseñar soluciones efectivas y se combina con marcos de innovación repetibles El diseño centrado en las personas fortalece la conexión entre las necesidades reales y las soluciones Casos exitosos de I+D en empresas privadas Las empresas privadas reconocen con claridad el valor del uso de datos a través de procesos de I+D Los recientes avances en IA serían imposibles sin una inversión continua en I+D Conclusión Los resultados iniciales de los proyectos de I+D en datos pueden ser inciertos, pero el proceso mismo para generar valor a partir de los datos es una metodología probada La inversión continua y de largo plazo en I+D es esencial para acelerar la innovación y resolver los desafíos del sector social Es difícil contratar y apoyar a científicos de datos, y quienes trabajan solos tienen baja satisfacción laboral Dificultades desde la perspectiva de la organización Contratación Es difícil identificar y evaluar candidatos adecuados cuando no hay científicos de datos existentes en la organización El término "científico de datos" tiene una definición imprecisa, ya que abarca diversas habilidades y experiencias Atracción y retención de talento La alta demanda de científicos de datos crea un mercado laboral competitivo Además del factor motivacional de resolver problemas sociales, es necesario ofrecer trabajo técnico interesante, salarios competitivos y oportunidades de desarrollo profesional En las contrataciones en etapa temprana, es aún más difícil contar con estos elementos Gestión y apoyo Para que los científicos de datos mantengan su productividad, es necesario definir claramente el alcance del problema y proporcionar dirección, infraestructura y datos La falta de experiencia técnica facilita subestimar o sobreestimar la dificultad del trabajo Dificultades desde la perspectiva del desarrollador Aprendizaje y crecimiento La ciencia de datos es un campo que evoluciona rápidamente, por lo que es importante contar con oportunidades para aprender y crecer dentro del equipo En entornos donde es difícil hacer revisión de código, recibir retroalimentación sobre modelos y repartir la carga de trabajo, las oportunidades de crecimiento son limitadas Falta de dirección y apoyo Si el trabajo no recibe el apoyo adecuado, la satisfacción y la productividad de los científicos de datos disminuyen Disfrute del trabajo El proceso de discutir y resolver problemas con colegas aumenta la satisfacción laboral Esto también puede resolverse mediante redes externas, pero la colaboración dentro de la organización es más eficiente Señales de cambio Recientemente han aumentado los casos de organizaciones del sector social que forman sus propios equipos de datos DrivenData participa como socio apoyando la contratación, incorporación y transición de trabajo de los primeros científicos de datos e ingenieros Colaborar con equipos externos especializados en ciencia de datos para aportar capacidad flexible beneficia tanto a las organizaciones como a los científicos de datos Perspectiva a futuro Aunque algunas organizaciones están comenzando a tener éxito en la construcción de equipos de datos, la demanda de habilidades en ciencia de datos sigue siendo alta Se espera que continúe el reto de construir equipos de datos desde cero El open source no desarrolla suficientes soluciones para personas no desarrolladoras Limitaciones del open source El software de código abierto suele evolucionar eficazmente porque la comunidad de desarrolladores a menudo coincide con la de usuarios Los contribuyentes están motivados a mejorar las herramientas que ellos mismos usarán Sin embargo, esta motivación no opera de la misma forma en herramientas dirigidas a personas no desarrolladoras o no especialistas Retos de las herramientas para personas no especialistas En los proyectos de ciencia de datos, con frecuencia se desarrollan metodologías y herramientas para personas no desarrolladoras Incluso si se publican como open source, si no hay inversión y desarrollo continuos, los proyectos se estancan o se interrumpen Para convertirse realmente en soluciones exitosas, se necesita desarrollo adicional después de la etapa de prototipo y pruebas piloto realistas Caso concreto: Concept to Clinic En 2017-18, se desarrolló una aplicación abierta que utilizaba IA para ayudar a radiólogos a procesar tomografías computarizadas Para incentivar las contribuciones, se introdujo un sistema estructurado de incentivos que ofrecía puntos y recompensas monetarias a los participantes Sin este enfoque, es probable que el desarrollo del proyecto no hubiera sido posible Requisitos para un éxito sostenible del open source El simple hecho de publicar algo como open source no garantiza un impacto a largo plazo Para evolucionar de un prototipo a una solución dirigida a usuarios finales, se necesita una hoja de ruta clara y financiamiento continuo Al desarrollar aplicaciones importantes, el open source es solo una parte del camino, no debe convertirse en el objetivo final El hype tecnológico recibe demasiada atención Sector social e innovación tecnológica El sector social ha estado estrechamente vinculado a las oleadas de nuevas innovaciones tecnológicas durante la última década Las organizaciones se sienten tentadas a adoptar nuevas tecnologías para aumentar la eficiencia con recursos limitados Con frecuencia cambian de estrategia por la presión de no quedarse atrás en las últimas tendencias tecnológicas Problemas de adoptar tecnologías sobrevaloradas Es difícil identificar los elementos realmente innovadores dentro del hype tecnológico Muchas veces, la adopción tecnológica conduce a expectativas excesivas y una ejecución deficiente Ejemplos: Blockchain: pese a las altas expectativas, ha aportado pocos beneficios reales al sector social Apps móviles: incluso cuando no son realmente necesarias, la presión de considerarlas "imprescindibles" genera gastos ineficientes Importancia de las organizaciones técnicas especializadas Las organizaciones de expertos técnicos que pueden manejar eficientemente el hype tecnológico son las que logran los mejores resultados DrivenData colabora con DataKind, DSSG Fellowship, Delta Analytics y otras organizaciones, aprovechando su experiencia técnica Sin embargo, incluso estos grupos de especialistas tienen dificultades para acumular de forma sistemática las lecciones obtenidas de los ciclos de hype pasados Cambio necesario: un ‘rompeolas’ frente al hype tecnológico Se necesita la capacidad de separar la innovación real de las expectativas excesivas e identificar los avances clave Es indispensable un liderazgo técnico que combine comprensión de tecnologías de punta con un conocimiento profundo del sector social Actualmente faltan ese liderazgo y ese ecosistema, y se necesitan para construir un enfoque sostenido y más maduro Enfoque estratégico hacia tecnologías recientes como la IA El potencial de la IA es enorme, pero exige una estrategia cuidadosa y experiencia profunda, no entusiasmo superficial Si no se construyen bases sólidas sustentadas en datos, existe el riesgo de caer en un ciclo ineficiente en el que el hype tecnológico se repite Sin inversión y planificación de fondo, es difícil que la innovación tecnológica en el sector social produzca resultados reales La ciencia de datos y la IA tienen grandes implicaciones éticas, pero su adopción acelerada supera las herramientas y prácticas que deberían respaldarlas Expansión de la ciencia de datos y la IA e importancia ética La ciencia de datos y el machine learning se han integrado en diversos ámbitos, como la atención médica, la respuesta a desastres y las sentencias penales Los riesgos derivados de un uso incorrecto son mucho mayores que antes Una realidad con escasa consideración ética Los científicos de datos tienen una perspectiva única para comprender las implicaciones éticas de los modelos y pipelines Sin embargo, esa perspectiva muchas veces no se integra en el ciclo de vida de los proyectos de ciencia de datos Desarrollo de una checklist open source para abordar trade-offs éticos Se integra en el flujo de trabajo de ciencia de datos para permitir discutir los trade-offs éticos Principios clave: Las decisiones éticas deben reconocer los trade-offs más importantes en un contexto específico y buscar avanzar de manera responsable y minimizar daños Los problemas éticos surgen en todas las etapas del proyecto, como la recolección, el almacenamiento, el análisis, el modelado y el despliegue de datos Las discusiones éticas suelen perder prioridad debido a cronogramas ajustados y otras exigencias Para evitarlo, es necesario integrar las preguntas éticas en otros aspectos del flujo de trabajo y asignar tiempo de forma intencional Equidad algorítmica y mitigación de sesgos Los modelos entrenados con datos sesgados reproducen desigualdades, por lo que se están desarrollando tecnologías para identificar y mitigar este problema Ejemplo: junto con Wellcome Trust, se creó un caso de mitigación de sesgo con enfoque de equidad en un modelo de predicción de estrés psicológico Se analizaron los sesgos mediante métricas cuantificadas de equidad y se ofrecieron métodos de mitigación Importancia de la consideración ética en la era de la IA Al mismo tiempo que la IA se expande rápidamente, las empresas están desmantelando equipos de IA responsable para reducir costos En el sector social, la responsabilidad hacia los beneficiarios es mayor, por lo que el costo de las fallas éticas también es más alto Si no se fortalecen las prácticas éticas, existe el riesgo de que la adopción de IA cause problemas aún mayores Conclusión Construir herramientas y prácticas éticas que respalden la adopción de IA es más importante que nunca Debe garantizarse la confianza y la sostenibilidad en el sector social mediante un uso responsable de la tecnología Perspectivas a futuro Cambios y oportunidades en la ciencia de datos En los últimos 10 años, la ciencia de datos ha impulsado cambios importantes en el sector social, acumulando tanto éxitos como desafíos Ha aumentado la conciencia sobre el potencial de los datos y la IA, pero aún quedan grandes preguntas por resolver: ¿Cómo aplicar de forma práctica los avances tecnológicos continuos a los mayores problemas sociales? ¿Cómo garantizar que los beneficios no se concentren solo en unas pocas grandes empresas? ¿Cómo lograr una implementación responsable de la tecnología en beneficio de la naturaleza y la humanidad? La importancia de las lecciones obtenidas de la experiencia Los esfuerzos basados en lecciones aprendidas de experiencias pasadas son los que generan los mayores resultados DrivenData se enorgullece de formar parte de una comunidad de socios, clientes y desarrolladores que usan los datos y la IA para el bien social Si te interesan temas similares o tienes ideas adicionales, serán bienvenidas si las compartes Expectativas hacia el futuro Así como los últimos 10 años fueron deslumbrantes, se espera que los próximos 10 traigan cambios aún mayores Hay mucho por hacer y mucho por aprender Frente a estos desafíos, se espera un futuro que explore nuevas posibilidades y genere un mejor impacto social

(drivendata.co)

13 puntos por xguru 2025-01-23 | 1 comentarios | Compartir por WhatsApp

Cuando DrivenData comenzó en 2014, el uso de la ciencia de datos para el bien social todavía estaba en una etapa temprana
En ese momento, las técnicas de ciencia de datos se usaban principalmente en empresas como Netflix y Amazon para marketing y recomendaciones de contenido, y casi no había casos de uso para organizaciones sin fines de lucro, ONG, empresas sociales o servicios gubernamentales
Objetivos iniciales y contexto
- El talento en ciencia de datos era muy escaso y el costo de contratación era alto, y esa brecha era aún más grave en organizaciones que abordan problemas sociales
- Surgió en el Harvard Innovation Lab con la intención de cerrar la brecha de capacidades en ciencia de datos para problemas sociales
- El objetivo era resolver grandes desafíos sociales del mundo aprovechando técnicas de punta en ciencia de datos y crowdsourcing
Dos citas que reflejan la visión de ese momento
- "Hacer que los macrodatos sean útiles para la toma de decisiones humanitarias es uno de los principales desafíos y oportunidades de la era de las redes" – UN OCHA
- "Las mejores mentes de mi generación están pensando en cómo hacer que la gente haga clic en anuncios… Es realmente frustrante." – Jeff Hammerbacher, exgerente de datos de Facebook
Cambios en los últimos 10 años
- Se han realizado diversos intentos por aplicar la ciencia de datos y la IA al impacto social
- Más de 150 proyectos y colaboración con alrededor de 80 socios (Banco Mundial, Fundación Bill & Melinda Gates, NASA, entre otros)
- Se organizaron más de 75 competencias de ciencia de datos, con más de USD 4.7 millones en premios
Durante la última década, DrivenData ha acumulado buenas prácticas y lecciones al buscar el bien social a través de la ciencia de datos
En este punto, quieren aprovechar la oportunidad para reflexionar en conjunto sobre qué ha funcionado, qué sigue siendo desafiante y qué dirección tomar para construir un futuro mejor

Avance de 10 lecciones clave

Casos en los que la ciencia de datos ha funcionado bien

La ciencia de datos tiene un impacto significativo en los problemas sociales
Los buenos datos conducen a buenas soluciones
Los esfuerzos tienen más éxito cuando se enfocan en problemas concretos y necesidades humanas
Es más eficaz cuando combina las fortalezas de las máquinas y las personas
Las perspectivas multidisciplinarias y la flexibilidad benefician a las organizaciones

Aspectos que siguen siendo desafiantes

La ciencia de datos es una actividad iterativa de I+D, y el sector social invierte poco en ello
Es difícil contratar y apoyar bien a los científicos de datos
El open source carece de desarrollo de soluciones para personas no desarrolladoras
La exageración tecnológica (hype wave) recibe demasiada atención
La ciencia de datos y la IA tienen grandes implicaciones éticas, pero las herramientas y prácticas que apoyan su uso ético van rezagadas

Los tiempos están cambiando

En los últimos 10 años, la velocidad de avance de las tecnologías de datos e IA ha sido sorprendentemente rápida. Los principales factores de innovación que lo hicieron posible incluyen lo siguiente:

Cómputo y almacenamiento
- La expansión del cloud computing y del almacenamiento ha hecho que los recursos necesarios sean más baratos y accesibles
- Se redujeron los costos iniciales, desde experimentos basados en GPU hasta el despliegue de clústeres escalables para ejecutar modelos en tiempo real
Deep learning
- El deep learning trajo cambios transformadores a la ciencia de datos
- Hubo una explosión de arquitecturas efectivas, como las redes generativas antagónicas (GAN), transformers, autoencoders variacionales y redes neuronales de grafos
- Se desarrolló un ecosistema centrado en PyTorch y TensorFlow, y herramientas, librerías y modelos preentrenados aceleraron aún más el ritmo de avance
Democratización del acceso a la tecnología
- La ciencia de datos llegó a ser llamada "el trabajo más sexy del siglo XXI", y las oportunidades de aprendizaje crecieron de forma explosiva
- Gracias a MOOCs, bootcamps y competencias de datos, más personas adquirieron habilidades básicas de ciencia de datos
IA generativa
- La aparición de los modelos de lenguaje de gran tamaño (LLM) ha cambiado la forma de trabajar
- Ha reducido el tiempo necesario para tareas complejas y abierto nuevas posibilidades
- Aún se evalúa si la IA generativa es una moda pasajera o una innovación real, pero está claro que la IA seguirá usándose de forma continua

A pesar de estos cambios tecnológicos, se observan varios patrones comunes que trascienden tecnologías específicas. Este texto se centra en lo que ha funcionado bien durante la última década y en lo que sigue siendo un reto.

Casos en los que la ciencia de datos ha funcionado bien

La ciencia de datos tiene un impacto significativo en los problemas sociales

Situación hace 10 años
- El potencial de las herramientas de ciencia de datos era claro, pero su aplicación al impacto social era limitada
- En ese entonces, la discusión se limitaba a unos pocos casos y avanzaba principalmente en torno a ideas sobre posibilidades futuras
Avances actuales
- Los modelos de machine learning influyen en la toma de decisiones en diversos campos, como la atención médica y la gestión de recursos naturales
- La ciencia de datos ayuda a gestionar problemas como las floraciones de algas nocivas, la pesca insostenible y los desastres naturales provocados por el cambio climático, además de contribuir a la inclusión financiera y la conservación de la vida silvestre
- En el ámbito público, la visualización de datos se ha consolidado como un medio clave para la cobertura periodística y la comunicación de mensajes
  - Ejemplo: campañas para frenar la propagación de COVID-19, dashboard de la OMS
Caso concreto con imágenes satelitales
- En Yemen, se usaron imágenes satelitales para analizar tipos de cultivos y riesgos climáticos, aportando información al programa de seguridad alimentaria del Banco Mundial
Contribución de la IA al avance científico
- AlphaFold: modelo de predicción de estructuras de proteínas que realiza en horas tareas que antes tomaban años, y ofrece gratuitamente a la comunidad científica las estructuras de todas las proteínas
- Modelos transformer: aplicados a la detección de discurso de odio en memes multimodales
- Tecnología de identificación individual: mejora el seguimiento de especies en peligro de extinción (como ballenas) y se ha extendido a varias especies
Cambios en el sector social
- A mediados de la década de 2010, el debate sobre el uso de datos se concentraba principalmente en la "medición del impacto"
- Ahora, el foco está en cómo las herramientas de ciencia de datos transforman la forma en que operan las organizaciones y les otorgan nuevas capacidades
- Hoy la discusión se centra en lo que la ciencia de datos y la IA pueden "hacer", más allá de lo que se puede medir

Los buenos datos conducen a buenas soluciones, y la accesibilidad a los datos ha mejorado mucho

Mayor presencia cotidiana de los datos
- En todas las actividades se generan datos: compras, uso de servicios de emergencia, visitas al hospital y más
- Electrodomésticos, wearables, vehículos, teléfonos móviles y aplicaciones recopilan datos de uso
- El avance de sensores y cámaras ha incrementado el uso de datos de imágenes y video
Dos etapas en el uso de los datos
1. Registrar los datos en formato digital y hacerlos observables
2. Evolucionar hacia una etapa en la que se aprende de los datos y se descubren patrones
La IA y el machine learning se basan en los datos
- Una mayor cantidad y mejor calidad de datos permite explorar nuevos patrones y desarrollar algoritmos
- Ejemplos: detección de cáncer, algoritmo de recomendaciones de Spotify, datos de entrenamiento de ChatGPT
La jerarquía de ciencia de datos de Monica Rogati
- Las capacidades avanzadas de la ciencia de datos requieren una base de datos sólida
- Una inversión inteligente en infraestructura de datos sienta las bases para implementar capacidades de nivel superior
Uso de datos para el valor social
- Gobiernos e instituciones grandes han ampliado la apertura de datos públicos
- Tipos de datos utilizados por DrivenData:
  - Datos meteorológicos, de tráfico y de OpenStreetMap: planificación del tráfico aéreo y apoyo a la resiliencia ante desastres
  - Imágenes satelitales: mapeo de la extensión de inundaciones y estimación de biomasa forestal
  - Datos de transacciones móviles: análisis de comportamientos y actitudes financieras
  - Datos de encuestas: hallazgos sobre opiniones y comportamientos a gran escala
  - Grabaciones de audio: clasificación del nivel de alfabetización infantil
  - Imágenes de alta resolución: predicción de la probabilidad de recurrencia del melanoma
  - Datos de texto: análisis automático de conceptos clínicos en notas médicas
Importancia de la accesibilidad y usabilidad de los datos
- No basta con que los datos simplemente estén abiertos al público
- Cuando se ofrecen en formatos legibles por máquina, con documentación clara y casos de uso, aumenta la participación y el aprovechamiento
- Muchas organizaciones invierten en recolectar datos, pero descuidan la inversión adicional necesaria para aprovecharlos
- La documentación de datos y los casos de aplicación cumplen un papel tan importante como los premios de los desafíos

Los esfuerzos tienen más éxito cuando se enfocan en problemas concretos y necesidades humanas

Las trampas de un enfoque centrado en la tecnología
- Las organizaciones de impacto social a menudo intentan ponerse al día con las últimas tendencias tecnológicas
- El "big data" y las herramientas de IA pueden parecer soluciones universales, pero en la práctica son efectivas cuando se enfocan en resolver problemas concretos
Claves para diseñar proyectos exitosos
- Definir usuarios y problemas específicos, y establecer objetivos medibles que permitan resolverlos
- Usar herramientas de diseño centrado en las personas para identificar lo que la gente "quiere" y desarrollar soluciones que vayan más allá de lo que es técnicamente "posible"
Casos concretos
- Detección de floraciones de algas (CyFi)
  - En colaboración con NASA, se detectan floraciones nocivas de cianobacterias mediante imágenes satelitales
  - Ayuda a que los administradores del agua evalúen con precisión el estado de las floraciones y asignen recursos de manera eficiente
- Identificación de vida silvestre (Zamba)
  - En colaboración con el Instituto Max Planck, se desarrolló una herramienta de identificación automática de animales usando datos de cámaras trampa
  - Al incorporar retroalimentación de investigadores, se mejoró la UI en Zamba Cloud para aumentar la facilidad de uso
La importancia de la perspectiva del usuario
- Definición del problema
  - Comprender con claridad el problema y los requisitos mediante entrevistas con usuarios y recopilación de opiniones
  - Reflejar la perspectiva humana detrás de los puntos de datos
- Entrega de la solución
  - Se necesitan pruebas de UI/UX y una comunicación clara para que los usuarios puedan aprovechar la solución de forma efectiva y entender sus beneficios
  - Ayudar a comprender de forma intuitiva las fortalezas y limitaciones del modelo, y explicar cómo usarlo mediante casos reales
Conclusión
- El papel de los científicos de datos es conectar las capacidades técnicas con las necesidades sociales
- Los proyectos más efectivos son los que no se obsesionan con la tecnología más reciente, sino que se enfocan en resolver problemas y generar resultados concretos

Las soluciones son más efectivas cuando combinan las fortalezas de las máquinas y las personas

El riesgo de las expectativas exageradas sobre la IA
- Los modelos de ciencia de datos y la IA no son omnipotentes, y todos los modelos tienen algún grado de limitación
- El simple hecho de implementar IA no garantiza el éxito
- Las mejores soluciones surgen de sistemas que combinan las fortalezas de las máquinas y de las personas
Caso de la herramienta Zamba
- Zamba predice probabilísticamente si hay animales en videos de cámaras trampa para fauna silvestre
- A veces el modelo puede equivocarse, pero las probabilidades que ofrece permiten diseñar estrategias de revisión eficientes
  - Ejemplo: revisar primero los videos con mayor probabilidad de contener chimpancés, o establecer un umbral de probabilidad para considerarlos videos vacíos
  - Como resultado, es posible identificar el 85% de los videos con chimpancés revisando menos del 5% del total
Resultados de la colaboración entre máquina y persona
- Caso de detección de cáncer de mama con IA: cuando radiólogos e IA colaboran, logran mayor precisión que cada uno por separado
- Se enfatiza la interpretabilidad y explicabilidad de la IA: ofrecer información para que las personas puedan evaluar los resultados de la IA e integrarlos en su contexto
  - Ejemplo: en una competencia de identificación de ballenas, el modelo proporcionó visualizaciones de las características usadas para emparejar a cada ballena individual
Un patrón similar en la IA generativa
- La retroalimentación humana es esencial para el desarrollo de herramientas útiles como ChatGPT
- Los datos de retroalimentación permiten mejorar el modelo para que aprenda casos cada vez más difíciles
Evaluación del costo de los errores y de las mejoras posibles
- El diseño del sistema puede mejorarse con dos preguntas:
  1. "Si existiera un modelo perfecto, ¿cómo lo usaríamos?"
  2. "Si ese modelo se equivocara a veces, ¿cómo responderíamos?"
- Esto permite identificar el nivel de error que el sistema puede tolerar y en qué partes se necesita revisión humana
Lecciones para las organizaciones
- Caso del gobierno de los Países Bajos en 2021: un algoritmo inadecuado acusó erróneamente a 26,000 hogares de fraude en ayudas sociales
- Depender de algoritmos sin una revisión humana adecuada genera costos sociales elevados
- En cambio, combinar las fortalezas de algoritmos y personas permite maximizar la eficiencia y la efectividad

Una perspectiva multidisciplinaria y la flexibilidad ayudan a las organizaciones

Experiencia en proyectos de distintos campos
- Al trabajar en inclusión financiera, acción climática, salud y otros ámbitos, se han confirmado los beneficios de una perspectiva multidisciplinaria
- Es posible extender patrones de aprendizaje automático de un contexto específico a otros campos
  - Ejemplo: aplicaciones entre modelos de visión por computadora para conservar bosques de kelp y modelos para detectar lesiones en biopsias cervicales
Flexibilidad en el enfoque
- Problemas tan distintos como la detección temprana de plagas en cultivos y la extracción de habilidades de currículums se basan en reconocimiento de entidades nombradas (NER)
- Las lecciones y experiencias de enfoques previos pueden reutilizarse y aplicarse a otros problemas con menor costo
Caso concreto
- Un enfoque de procesamiento de lenguaje natural para reconocer cultivos, plagas, enfermedades y químicos en mensajes de WhatsApp
- Ayuda a pequeños agricultores a detectar nuevas tendencias y mejorar recomendaciones basadas en evidencia científica
Equilibrio entre experiencia especializada y perspectiva del usuario
- La colaboración con expertos del dominio garantiza un contexto adecuado para el problema
- Incluir la perspectiva del usuario en el proceso de ciencia de datos permite diseñar soluciones apropiadas
Identificar el "trabajo que vale la pena hacer"
- La experiencia técnica por sí sola no basta; también se necesitan empatía, comunicación, curiosidad y flexibilidad
- Se debe hacer lluvia de ideas sobre áreas donde el aprendizaje automático pueda aportar valor, entendiendo a fondo para quién es el enfoque y cómo se usará
Responder a las diversas necesidades de las organizaciones
- Las necesidades varían según la organización, desde investigación exploratoria hasta prototipado y producción
- Se trabaja con socios muy diversos, desde grandes organizaciones proveedoras de datos (Candid, NASA, etc.) hasta organizaciones que apenas están construyendo sus primeros sistemas de datos
- Es importante mantener la pertinencia de la tecnología y, al mismo tiempo, aprovechar con flexibilidad la riqueza de la experiencia

Lo que sigue siendo desafiante

La ciencia de datos es iterativa, y el sector social invierte poco en I+D

La naturaleza y el valor de la I+D
- La investigación y el desarrollo son un proceso de aprendizaje que requiere inversión de capital, experimentación, reflexión y disposición a asumir fracasos
- Los métodos seguros y los enfoques de corto plazo tienen límites para resolver el tipo de problemas que requiere el sector social
- La inversión a largo plazo y la innovación no lineal generan resultados importantes
Baja inversión del sector social en I+D
- Según una encuesta de la NSF de 2022, el 94% de las grandes organizaciones sin fines de lucro no realiza ninguna actividad de I+D
- Aunque la ciencia de datos es en gran medida una actividad de I+D, la inversión en esta área sigue siendo insuficiente
La naturaleza iterativa de la ciencia de datos
- La ciencia de datos aprovecha ciclos iterativos de aprendizaje y retroalimentación para generar mejores resultados y mejorar la eficiencia de los servicios
- Se usan marcos que enfatizan la iteración, como el curso de ciencia de datos de Harvard y CRISP-DM (proceso estándar para minería de datos)
La importancia de una ciencia de datos centrada en las personas
- El proceso de aprendizaje se enfoca en diseñar soluciones efectivas y se combina con marcos de innovación repetibles
- El diseño centrado en las personas fortalece la conexión entre las necesidades reales y las soluciones
Casos exitosos de I+D en empresas privadas
- Las empresas privadas reconocen con claridad el valor del uso de datos a través de procesos de I+D
- Los recientes avances en IA serían imposibles sin una inversión continua en I+D
Conclusión
- Los resultados iniciales de los proyectos de I+D en datos pueden ser inciertos, pero el proceso mismo para generar valor a partir de los datos es una metodología probada
- La inversión continua y de largo plazo en I+D es esencial para acelerar la innovación y resolver los desafíos del sector social

Es difícil contratar y apoyar a científicos de datos, y quienes trabajan solos tienen baja satisfacción laboral

Dificultades desde la perspectiva de la organización
- Contratación
  - Es difícil identificar y evaluar candidatos adecuados cuando no hay científicos de datos existentes en la organización
  - El término "científico de datos" tiene una definición imprecisa, ya que abarca diversas habilidades y experiencias
- Atracción y retención de talento
  - La alta demanda de científicos de datos crea un mercado laboral competitivo
  - Además del factor motivacional de resolver problemas sociales, es necesario ofrecer trabajo técnico interesante, salarios competitivos y oportunidades de desarrollo profesional
  - En las contrataciones en etapa temprana, es aún más difícil contar con estos elementos
- Gestión y apoyo
  - Para que los científicos de datos mantengan su productividad, es necesario definir claramente el alcance del problema y proporcionar dirección, infraestructura y datos
  - La falta de experiencia técnica facilita subestimar o sobreestimar la dificultad del trabajo
Dificultades desde la perspectiva del desarrollador
- Aprendizaje y crecimiento
  - La ciencia de datos es un campo que evoluciona rápidamente, por lo que es importante contar con oportunidades para aprender y crecer dentro del equipo
  - En entornos donde es difícil hacer revisión de código, recibir retroalimentación sobre modelos y repartir la carga de trabajo, las oportunidades de crecimiento son limitadas
- Falta de dirección y apoyo
  - Si el trabajo no recibe el apoyo adecuado, la satisfacción y la productividad de los científicos de datos disminuyen
- Disfrute del trabajo
  - El proceso de discutir y resolver problemas con colegas aumenta la satisfacción laboral
  - Esto también puede resolverse mediante redes externas, pero la colaboración dentro de la organización es más eficiente
Señales de cambio
- Recientemente han aumentado los casos de organizaciones del sector social que forman sus propios equipos de datos
- DrivenData participa como socio apoyando la contratación, incorporación y transición de trabajo de los primeros científicos de datos e ingenieros
- Colaborar con equipos externos especializados en ciencia de datos para aportar capacidad flexible beneficia tanto a las organizaciones como a los científicos de datos
Perspectiva a futuro
- Aunque algunas organizaciones están comenzando a tener éxito en la construcción de equipos de datos, la demanda de habilidades en ciencia de datos sigue siendo alta
- Se espera que continúe el reto de construir equipos de datos desde cero

El open source no desarrolla suficientes soluciones para personas no desarrolladoras

Limitaciones del open source
- El software de código abierto suele evolucionar eficazmente porque la comunidad de desarrolladores a menudo coincide con la de usuarios
- Los contribuyentes están motivados a mejorar las herramientas que ellos mismos usarán
- Sin embargo, esta motivación no opera de la misma forma en herramientas dirigidas a personas no desarrolladoras o no especialistas
Retos de las herramientas para personas no especialistas
- En los proyectos de ciencia de datos, con frecuencia se desarrollan metodologías y herramientas para personas no desarrolladoras
- Incluso si se publican como open source, si no hay inversión y desarrollo continuos, los proyectos se estancan o se interrumpen
- Para convertirse realmente en soluciones exitosas, se necesita desarrollo adicional después de la etapa de prototipo y pruebas piloto realistas
Caso concreto: Concept to Clinic
- En 2017-18, se desarrolló una aplicación abierta que utilizaba IA para ayudar a radiólogos a procesar tomografías computarizadas
- Para incentivar las contribuciones, se introdujo un sistema estructurado de incentivos que ofrecía puntos y recompensas monetarias a los participantes
- Sin este enfoque, es probable que el desarrollo del proyecto no hubiera sido posible
Requisitos para un éxito sostenible del open source
- El simple hecho de publicar algo como open source no garantiza un impacto a largo plazo
- Para evolucionar de un prototipo a una solución dirigida a usuarios finales, se necesita una hoja de ruta clara y financiamiento continuo
- Al desarrollar aplicaciones importantes, el open source es solo una parte del camino, no debe convertirse en el objetivo final

El hype tecnológico recibe demasiada atención

Sector social e innovación tecnológica
- El sector social ha estado estrechamente vinculado a las oleadas de nuevas innovaciones tecnológicas durante la última década
- Las organizaciones se sienten tentadas a adoptar nuevas tecnologías para aumentar la eficiencia con recursos limitados
- Con frecuencia cambian de estrategia por la presión de no quedarse atrás en las últimas tendencias tecnológicas
Problemas de adoptar tecnologías sobrevaloradas
- Es difícil identificar los elementos realmente innovadores dentro del hype tecnológico
- Muchas veces, la adopción tecnológica conduce a expectativas excesivas y una ejecución deficiente
- Ejemplos:
  - Blockchain: pese a las altas expectativas, ha aportado pocos beneficios reales al sector social
  - Apps móviles: incluso cuando no son realmente necesarias, la presión de considerarlas "imprescindibles" genera gastos ineficientes
Importancia de las organizaciones técnicas especializadas
- Las organizaciones de expertos técnicos que pueden manejar eficientemente el hype tecnológico son las que logran los mejores resultados
- DrivenData colabora con DataKind, DSSG Fellowship, Delta Analytics y otras organizaciones, aprovechando su experiencia técnica
- Sin embargo, incluso estos grupos de especialistas tienen dificultades para acumular de forma sistemática las lecciones obtenidas de los ciclos de hype pasados
Cambio necesario: un ‘rompeolas’ frente al hype tecnológico
- Se necesita la capacidad de separar la innovación real de las expectativas excesivas e identificar los avances clave
- Es indispensable un liderazgo técnico que combine comprensión de tecnologías de punta con un conocimiento profundo del sector social
- Actualmente faltan ese liderazgo y ese ecosistema, y se necesitan para construir un enfoque sostenido y más maduro
Enfoque estratégico hacia tecnologías recientes como la IA
- El potencial de la IA es enorme, pero exige una estrategia cuidadosa y experiencia profunda, no entusiasmo superficial
- Si no se construyen bases sólidas sustentadas en datos, existe el riesgo de caer en un ciclo ineficiente en el que el hype tecnológico se repite
- Sin inversión y planificación de fondo, es difícil que la innovación tecnológica en el sector social produzca resultados reales

La ciencia de datos y la IA tienen grandes implicaciones éticas, pero su adopción acelerada supera las herramientas y prácticas que deberían respaldarlas

Expansión de la ciencia de datos y la IA e importancia ética
- La ciencia de datos y el machine learning se han integrado en diversos ámbitos, como la atención médica, la respuesta a desastres y las sentencias penales
- Los riesgos derivados de un uso incorrecto son mucho mayores que antes
Una realidad con escasa consideración ética
- Los científicos de datos tienen una perspectiva única para comprender las implicaciones éticas de los modelos y pipelines
- Sin embargo, esa perspectiva muchas veces no se integra en el ciclo de vida de los proyectos de ciencia de datos
Desarrollo de una checklist open source para abordar trade-offs éticos
- Se integra en el flujo de trabajo de ciencia de datos para permitir discutir los trade-offs éticos
- Principios clave:
  - Las decisiones éticas deben reconocer los trade-offs más importantes en un contexto específico y buscar avanzar de manera responsable y minimizar daños
  - Los problemas éticos surgen en todas las etapas del proyecto, como la recolección, el almacenamiento, el análisis, el modelado y el despliegue de datos
  - Las discusiones éticas suelen perder prioridad debido a cronogramas ajustados y otras exigencias
  - Para evitarlo, es necesario integrar las preguntas éticas en otros aspectos del flujo de trabajo y asignar tiempo de forma intencional
Equidad algorítmica y mitigación de sesgos
- Los modelos entrenados con datos sesgados reproducen desigualdades, por lo que se están desarrollando tecnologías para identificar y mitigar este problema
- Ejemplo: junto con Wellcome Trust, se creó un caso de mitigación de sesgo con enfoque de equidad en un modelo de predicción de estrés psicológico
  - Se analizaron los sesgos mediante métricas cuantificadas de equidad y se ofrecieron métodos de mitigación
Importancia de la consideración ética en la era de la IA
- Al mismo tiempo que la IA se expande rápidamente, las empresas están desmantelando equipos de IA responsable para reducir costos
- En el sector social, la responsabilidad hacia los beneficiarios es mayor, por lo que el costo de las fallas éticas también es más alto
- Si no se fortalecen las prácticas éticas, existe el riesgo de que la adopción de IA cause problemas aún mayores
Conclusión
- Construir herramientas y prácticas éticas que respalden la adopción de IA es más importante que nunca
- Debe garantizarse la confianza y la sostenibilidad en el sector social mediante un uso responsable de la tecnología

Perspectivas a futuro

Cambios y oportunidades en la ciencia de datos
- En los últimos 10 años, la ciencia de datos ha impulsado cambios importantes en el sector social, acumulando tanto éxitos como desafíos
- Ha aumentado la conciencia sobre el potencial de los datos y la IA, pero aún quedan grandes preguntas por resolver:
  - ¿Cómo aplicar de forma práctica los avances tecnológicos continuos a los mayores problemas sociales?
  - ¿Cómo garantizar que los beneficios no se concentren solo en unas pocas grandes empresas?
  - ¿Cómo lograr una implementación responsable de la tecnología en beneficio de la naturaleza y la humanidad?
La importancia de las lecciones obtenidas de la experiencia
- Los esfuerzos basados en lecciones aprendidas de experiencias pasadas son los que generan los mayores resultados
- DrivenData se enorgullece de formar parte de una comunidad de socios, clientes y desarrolladores que usan los datos y la IA para el bien social
- Si te interesan temas similares o tienes ideas adicionales, serán bienvenidas si las compartes
Expectativas hacia el futuro
- Así como los últimos 10 años fueron deslumbrantes, se espera que los próximos 10 traigan cambios aún mayores
- Hay mucho por hacer y mucho por aprender
- Frente a estos desafíos, se espera un futuro que explore nuevas posibilidades y genere un mejor impacto social

1 comentarios

halfenif 2025-01-23

"Las mejores mentes de mi generación están dedicando su pensamiento a hacer que la gente haga clic en anuncios… realmente es frustrante."

Ahora que lo pienso, de verdad tiene sentido.

10 años de lecciones de ciencia de datos para el bien social

Avance de 10 lecciones clave

Casos en los que la ciencia de datos ha funcionado bien

Aspectos que siguen siendo desafiantes

Los tiempos están cambiando

Casos en los que la ciencia de datos ha funcionado bien

La ciencia de datos tiene un impacto significativo en los problemas sociales

Los buenos datos conducen a buenas soluciones, y la accesibilidad a los datos ha mejorado mucho

Los esfuerzos tienen más éxito cuando se enfocan en problemas concretos y necesidades humanas

Las soluciones son más efectivas cuando combinan las fortalezas de las máquinas y las personas

Una perspectiva multidisciplinaria y la flexibilidad ayudan a las organizaciones

Lo que sigue siendo desafiante

La ciencia de datos es iterativa, y el sector social invierte poco en I+D

Es difícil contratar y apoyar a científicos de datos, y quienes trabajan solos tienen baja satisfacción laboral

El open source no desarrolla suficientes soluciones para personas no desarrolladoras

El hype tecnológico recibe demasiada atención

La ciencia de datos y la IA tienen grandes implicaciones éticas, pero su adopción acelerada supera las herramientas y prácticas que deberían respaldarlas

Perspectivas a futuro

Lecturas relacionadas

1 comentarios