2 Recolección y procesamiento de datos

Existe un número cada vez mayor de fuentes de datos que pueden ser utilizadas para la toma de decisión en políticas públicas: censos, encuestas, registros administrativos, registros de uso de páginas web (logs) e incluso imágenes satelitales. Estos datos se vuelven información cuando se obtienen indicadores que describen a la población objetivo o al fenómeno que se está buscando entender.

No siempre, sin embargo, los datos recolectados tienen una frecuencia, desagregación o cobertura que los haga relevantes, o carecen de la calidad necesaria para utilizarse para la toma de decisiones. Por ejemplo, las encuestas diseñadas mediante muestreo probabilístico especifican por su diseño el tipo de análisis que se puede hacer con ellas, pero este tipo de herramientas suelen levantarse con poca frecuencia y pueden resultar insuficientes para captar el movimiento de los patrones que van a estudiarse. Por otro lado, la información proveniente de registros administrativos o datos provenientes de internet (interacción en redes sociales, visitas y otras medidas en páginas web, etc.) y telefonía (llamadas, ubicación por GPS, etc.) suelen tener una frecuencia mucho mayor, pero en pocos casos cubre a la población en su conjunto, por lo que no es siempre posible utilizarla con el fin de tomar decisiones para toda la población.

Ya sea que se esté implementando un modelo supervisado o no supervisado, los datos de entrenamiento son un punto muy importante de cualquier sistema de ML. La calidad de los datos puede analizarse mediante criterios como volumen, completitud, validez, relevancia, precisión, puntualidad, accesibilidad, comparabilidad e interoperabilidad de distintas fuentes. Definir con precisión estos criterios en general es difícil, pues el contexto de cada problema tiene particularidades sutiles. La relevancia y precisión se refieren a calidad de medición y utilidad para informar la decisión, mientras que la puntualidad alude a que los datos ocurren con la temporalidad necesaria para informar el problema que va a decidirse. Accesibilidad, comparabilidad e interoperabilidad se refieren a que los datos pueden extraerse oportunamente y a que distintas fuentes de datos tienen la congruencia necesaria para aplicarse conjuntamente en el análisis⁸.

En esta sección se abordan dos problemas comunes para los sistemas de aprendizaje automático durante la fase de recolección y procesamiento de datos⁹.

Calidad y relevancia de los datos disponibles, y
Cualificación y exhaustividad de los datos para la población objetivo.

Las secciones 2.1 y 2.2 abordan algunas de las cuestiones destacadas en los Principios de buenas prácticas para la ética de los datos en el sector público de la OECD en relación con la calidad y la cualificación de los datos. Los Principios de Buenas Prácticas tienen por objeto apoyar a los funcionarios públicos en la aplicación de la ética de los datos en los proyectos, productos y servicios del gobierno digital, de modo que: i) la confianza se sitúe en el centro de su diseño y entrega y ii) la integridad pública se mantenga a través de medidas específicas adoptadas por los gobiernos, las organizaciones públicas y, a un nivel más granular, los funcionarios públicos (OECD 2021).

2.1 Calidad y relevancia de los datos disponibles

Los algoritmos de aprendizaje automático captan patrones y relaciones observadas a partir de los datos con los que se han entrenado. Su objetivo es identificar estos mismos patrones para nuevos casos no observados durante el entrenamiento del modelo. Por esta razón, los datos de entrenamiento determinan la forma como se comportará el algoritmo. Sin embargo, los datos disponibles no siempre son ideales para todos los casos de uso. Dos de los principales problemas son:

Estados indeseables o subóptimos en datos recolectados.
Mala correspondencia entre variables disponibles y variables ideales.

2.1.1 Estados indeseables o subóptimos en datos recolectados

El primer reto es no tomar en cuenta que los datos con los que entrenamos un modelo de ML pueden haber captado estados indeseables del mundo real. Esos “estados indeseables” pueden ser sesgos e inequidades perjudiciales para subgrupos, pero también puede ser cualquier otro patrón que se considere subóptimo o no deseable desde un punto de vista de política social.

Ejemplo

Un caso de este reto se dio en 2015 cuando Amazon experimentó con un sistema de recomendación de recursos humanos a partir de técnicas de aprendizaje supervisado. El modelo entrenaba con una base de datos de los procesos de selección de candidatos de la compañía almacenados durante los diez años anteriores. En esa base de datos se identificaba si un candidato había sido aceptado o rechazado para el trabajo por el departamento. El sistema se basaba en la hipótesis de que el algoritmo podría captar buenos candidatos y reducir el trabajo del departamento de recursos humanos al hacer una primera selección de los candidatos. Lo que el equipo no había tomado en cuenta es que la industria de la tecnología se ha caracterizado por ser predominantemente masculina, por lo que el sistema recomendaba una mayor proporción de hombres, pues más hombres habían sido aceptados en esos puestos históricamente, lo que creaba un sesgo que parecía mostrar que los hombres eran más exitosos, cuando en realidad estaba captando una inequidad.

Recuadro 4. Lista de verificación - Estados indeseables o subóptimos en datos recolectados

(Cualitativo) Discutir las posibles desigualdades sociales históricas en el caso de uso con especialistas en la materia.
(Cuantitativo) Realizar un análisis exploratorio de los datos disponibles con los que se entrenará el modelo para identificar posibles sesgos históricos o estados indeseables.

2.1.2 Mala correspondencia entre variables disponibles y variables ideales

Cuando se toman decisiones de política pública, se hacen a partir de la definición de una o varias variables objetivo “ideales” que tiene en mente el tomador de decisiones. Sin embargo, las variables ideales pueden o no estar disponibles en los datos a los que se tiene acceso. En muchas ocasiones es necesario el uso de variables sustitutas o sucedáneas (proxy) que nos ayude a aproximarnos a la variable ideal. Cuando introducimos este tipo de variables dentro de modelos de ML podemos estar aprendiendo sesgos implícitos que pueden no ser deseables. Por ejemplo, una beca escolar que busque beneficiar a los estudiantes más inteligentes (variable ideal) se encontrará con el problema de definir ese concepto y encontrar una variable que pueda describirlo. Un examen de IQ asigna un valor mediante una prueba estandarizada que se describe como una variable proxy de la inteligencia. Sin embargo, el examen mide únicamente algunas dimensiones de la inteligencia, por lo que subestimará la inteligencia de algunas personas (Wilson 2014).

Las variables objetivo deben plantearse claramente, aunque sean ideales. Las variables disponibles deben analizarse para entender qué tan adecuadas son para utilizarse como proxy de la variable ideal. Se deben identificar sesgos sistemáticos dentro del contexto de su uso.

Ejemplo

El sistema de salud de Estados Unidos implementó un algoritmo para predecir las necesidades de cuidado médico que necesitaban distintos pacientes. En este caso, el tomador de decisiones de política pública quería una herramienta que le indicara de forma preventiva qué pacientes tenían un alto riesgo de requerir mayores cuidados médicos utilizando la información histórica de los hospitales. Dado que la variable ideal de riesgo de complicación no estaba disponible, utilizaron como variable proxy el gasto en que incurrieron los pacientes durante su enfermedad, en la hipótesis de que personas más enfermas terminarían gastando más en tratamientos médicos para superar la enfermedad. Obermeyer et al. (2019) demostraron que este sistema tenía un sesgo racial porque subestimaba el número de pacientes negros con necesidades de atención médica. El sesgo racial se ocasionaba porque esta subpoblación gastaba, en promedio, menos dinero que los pacientes blancos. Al utilizar el gasto como variable proxy de riesgo de complicación los pacientes blancos más saludables parecían requerir más cuidados de salud que pacientes negros más enfermos. En este caso usar el gasto en salud como medida sustituta de necesidad de cuidado médico fue poco apropiado, pues se encontraba sesgada por una variable omitida de desigualdad económica.

Recuadro 5. Mala correspondencia entre variables disponibles y variables ideales

(Cualitativo) Las variables objetivo ideales deben estar claramente establecidas. Las variables recogidas/disponibles deben analizarse para comprender hasta qué punto son adecuadas para sustituir a la variable objetivo. Deben identificarse los sesgos sistemáticos o la validez de la métrica sustituto.
(Cualitativo) ¿Se ha justificado claramente el uso de la variable de respuesta seleccionada para los fines de la intervención?

2.2 Cualificación y exhaustividad de los datos para la población objetivo

Los modelos de ML pretenden generar información para tomar acciones o políticas para una población objetivo. La mayor parte del tiempo las fuentes de datos no incluyen a toda la población (como sería el caso de un censo), por lo que es usual que solo se tenga disponible un subconjunto o muestra de la misma (una encuesta, una base de datos administrativa, etc.), a partir de la cual se debe buscar desarrollar extrapolaciones, predicciones o estimaciones que ayuden en la toma de decisiones.

2.2.1 Muestras probabilísticas y naturales

En estadística, una muestra es un subconjunto de casos o individuos de una población. En ella existen dos extremos posibles:

Muestreo probabilístico: se llama así a una muestra en donde los casos se seleccionan a partir de un diseño probabilístico. Por ejemplo: muestra aleatoria simple, estratificada, por conglomerados, etc. En este caso, todas las predicciones y estimaciones que pretende aplicarse a la población objetivo pueden evaluarse en cuanto a su precisión con garantías probabilísticas. Es decir, podemos dar rangos de error para estimaciones de cantidades asociadas a toda la población objetivo.

Por ejemplo: una encuesta nacional de hogares con diseño probabilístico generalmente consiste en una definición de estratificación, unidades de selección aleatoria a distintos niveles (unidades primarias, secundarias, etc.). Cada hogar se selecciona con una probabilidad conocida. Aunque la muestra se diseñe de manera no representativa (por ejemplo, más hogares en zonas rurales o de ingresos bajos), es posible hacer inferencias para toda la población con ciertas garantías acerca del tamaño de error de estimación.

Muestras naturales (no probabilísticas): por otro lado, una muestra natural o no probabilística se da cuando los casos no se seleccionan en forma aleatoria, sino por un proceso natural mal o parcialmente conocido. En este caso, no es posible saber qué va a pasar cuando se aplique una política que resulte de un modelo en la población general y no puedan construirse rangos de error de predicciones y estimaciones mediante métodos estadísticos que tengan garantías probabilísticas. Es decir, las cantidades y predicciones estimadas tienen error desconocido, los modelos y características útiles en la muestra pueden no aplicar en la población objetivo, y la situación puede agravarse para grupos protegidos subrepresentados. Williams (1981), por ejemplo, muestra que valores predictivos de anemia pueden ser distintos para diferentes grupos raciales y que predicciones desarrolladas para un grupo pueden tener desempeño pobre en otro.

Un caso usual de este tipo de muestras se da cuando por el canal de captación de la información se excluyen subgrupos particulares de población (sesgo de selección). Por ejemplo, con aplicaciones donde la población que no tenga acceso a Internet o a un teléfono inteligente será excluida. Este es el caso de la información proveniente de redes sociales, registros de llamadas telefónicas, etc.

Las muestras naturales de datos pueden dar lugar a:

Errores o sesgos de estimación y/o predicción.
Estructuras predictivas diferentes de las que observaríamos en la población objetivo (modelos no válidos).
Extrapolaciones que no están respaldadas por los datos.
Subrepresentación o sobrerrepresentación de subconjuntos de la población.

El muestreo probabilístico sería la situación ideal para la mayoría de los proyectos de aprendizaje automático. En este caso, puede entenderse exactamente qué subpoblaciones se muestrearon, a qué tasas y cómo se relacionan esas tasas con las tasas poblacionales. El diseño de la muestra determina el alcance inferencial. Sin embargo, tener una muestra probabilística no es siempre posible.

Esto no quiere decir que las muestras naturales no sean útiles; en muchas ocasiones son la única fuente de datos disponible para la toma de decisiones. Sin embargo, es importante entender de dónde provienen los datos para poder tomar en cuenta sus limitantes e identificar los riesgos implícitos al tomar decisiones para toda la población.

Un caso típico son las muestras de datos que provienen de redes sociales en las que la composición demográfica de los usuarios difiere sustancialmente de la población general. Un estudio para el Reino Unido descubrió que, en promedio, los usuarios de Twitter y Facebook son considerablemente más jóvenes que la población general y tienen más probabilidades de tener niveles de educación más altos que los no usuarios (Mellon and Prosser 2017). Cualquier estudio con estos datos debe explicar cómo estas particularidades pueden afectar los resultados.

Algo importante que hay que tomar en cuenta es que tener muestras equilibradas en términos de características de la población no es tampoco una condición ni necesaria ni suficiente para calificar como apropiada la base de datos para la construcción de modelos de ML. Por ejemplo, en el caso de información recolectada por redes sociales, el hecho de que se tenga una muestra que contenga 50 % hombres y 50 % mujeres no dice nada sobre el tipo de conclusiones que pueden extraerse con esos datos porque la selección de esas observaciones, al no darse mediante un proceso probabilístico, podría presentar un sesgo en alguna otra dimensión y no necesariamente generalizarse a la población total.

Recuadro 6. Lista de verificación - Muestras probabilísticas y naturales

(Cualitativo) ¿Se han analizado las posibles diferencias entre la base de datos y la población para la que se está desarrollando el sistema de IA? (Utilice la bibliografía relacionada con el tema y la información de los expertos. Estudie en particular los sesgos de selección no medidos).
(Cuantitativo) Aunque los modelos pueden construirse con diversas fuentes de datos, diseñadas o naturales, lo ideal es que la validación se realice con una muestra que permita la inferencia estadística a la población. La muestra de validación debe cubrir adecuadamente la población objetivo y las subpoblaciones de interés.

2.2.2 Atributos faltantes o incompletos

Muchos proyectos de aprendizaje automático están destinados a fallar por la poca calidad de los datos con los que se cuenta. Cuando se recolectan datos del mundo real a través de muestras no probabilísticas es muy común que algunas observaciones tengan datos faltantes, es decir, observaciones para las que no se tienen todos los atributos.

Los atributos faltantes o incompletos son un fenómeno que puede tener un efecto significativo en las conclusiones extraíbles de los datos. Por un lado, cuando información crucial acerca de las unidades es totalmente desconocida, esto puede resultar en modelos de desempeño pobre, con poca utilidad para la toma de decisiones y, por otro lado, la ausencia de información puede también estar asociada a características relevantes de las unidades para las que se quiere predecir.

Cuando existen observaciones faltantes es posible implementar distintos métodos de imputación, pero es importante explorar las razones o el “mecanismo de censura” por el que una observación puede tener valores faltantes. En la literatura existen tres principales supuestos (Little and Rubin 2002):

Valores faltantes completamente aleatorios (Missing Completely at Random - MCAR): se da cuando la probabilidad de faltar es la misma para todas las observaciones. Es decir, la censura o falta se produce totalmente al azar.
Valores faltantes aleatorios (Missing at Random - MAR): se da cuando los valores faltantes no dependen de los valores que toma esa variable, pero sí existe una relación entre los valores faltantes y otros datos observados del individuo.
Valores faltantes no aleatorios (Missing Not at Random - MNAR): se da cuando los valores faltantes dependen de los valores que toma esa variable o de datos no observados. Por ejemplo, es un fenómeno conocido que cuando se levantan encuestas de ingreso autorreportado las personas con mayor ingreso tienden a no revelarlo.

Recuadro 7. Atributos faltantes o incompletos

(Cualitativo) ¿Se ha realizado un análisis de valores faltantes y de variables omitidas?
(Cualitativo) ¿Se ha identificado si existen variables omitidas importantes para las cuales no se cuenta con mediciones asociadas (en caso de existir)?
(Cualitativo) ¿Se ha identificado las razones por las que existen observaciones faltantes (en caso de existir)?
(Cuantitativo) Los procesos de imputación tienen que evaluarse en cuanto a su sensibilidad a supuestos y datos. De preferencia, deben utilizarse métodos de imputación múltiple que permitan evaluar incertidumbre en la imputación (Little and Rubin 2002), (van Buuren and Groothuis-Oudshoorn 2011).

2.3 Comparación causal

Cuando los humanos racionalizan el mundo intentan comprenderlo en términos de causa y efecto: si entendemos por qué ocurrió algo, podemos alterar nuestro comportamiento para cambiar resultados futuros.

Un modelo de ML nos puede dar resultados que parecerían describir relaciones causales sin que necesariamente lo sean. Si la política se aplica en función de hallazgos en términos de las variables incluidas en el modelo, la derivación de políticas a partir de esos modelos puede llevar a decisiones erróneas.

Técnicas econométricas como los experimentos aleatorios controlados o RCTs (randomized controlled trials), experimentos naturales, diferencia en diferencias y variables instrumentales son utilizadas con estos objetivos para controlar por fenómenos como sesgo por selección o endogénesis por variables omitidas, entre otros. En los últimos años trabajos como Wager and Athey (2018) han comenzado a introducir en algoritmos de ML estas técnicas y procesos experimentales tipo A/B testing han empezado a utilizarse de forma masiva en contextos digitales por la facilidad de crear experimentos masivos en Internet. Sin embargo, en la mayoría de los casos los algoritmos de ML no buscan describir relaciones causales y es necesario ser muy cuidadosos con este tipo de uso (Imai, King, and Stuart 2008).

Recuadro 8. Lista de verificación - Comparación causal

(Cualitativo) Comprender y describir las razones por las que la variable de respuesta está correlacionada con variables conocidas y desconocidas. Describir los posibles sesgos basados en el conocimiento y el análisis de los expertos.
(Cualitativo) En caso de que no se haya trabajado para asegurar la causalidad en los resultados, ¿se comunicaron explícitamente las limitaciones de los resultados al responsable de las políticas públicas?
(Cuantitativo) En caso de que se intente la inferencia causal con modelos deben describirse las hipótesis, consideraciones o métodos utilizados para apoyar una interpretación causal. Deben realizarse y documentarse las comprobaciones de robustez.

Actividad:
Se recomienda el llenado del Perfil de datos durante la fase de conocimiento y preparación de datos del ciclo de vida de IA (ver Herramienta 2).

Al terminar esta fase se recomienda el llenado de la sección de fuente y manejo de datos del Perfil del modelo y llevar a cabo una discusión con el tomador de decisiones de política pública (ver Herramienta 3).

En esta etapa se recomienda el llenado del Perfil de datos de la sección de herramientas de este manual.↩︎
Aunque no se tratan en detalle en esta sección, otras cuestiones relacionadas con los datos –como el dominio y la estructura de los datos– se incluyen en el perfil de datos.↩︎