domingo, 6 de noviembre de 2011

El empate técnico en México





Objetivos.

En el año 2006 se desarrolló en México un proceso de elección presidencial que terminó en un desorden institucional y con la declaración de un presunto ganador que no convenció a más de la mitad de la población.

En esa ocasión se diseñó una frase que se ha popularizado en todo el mundo, reza: “empate técnico”, pero no tiene un significado en términos estadísticos. En cambio, deja la impresión de que cualquier cosa puede pasar.

Los propósitos de esta contribución a mi blog son varios:
·         El primero es demostrar lo absurdo de esa frase.
·         El segundo es hacer ver que las empresas encuestadoras no son confiables en términos de moral científica.
·         El tercero es reforzar la hipótesis de que la frase “empate técnico” fue diseñada con la intención de preparar al público para cometer un fraude en las elecciones de julio de 2006 en México.

El control televisivo.
México es un país controlado por una empresa televisora que durante décadas respaldó al partido en el gobierno para terminar, en los últimos diez años, imponiéndose por encima de los partidos que lo comparten.

Más del 80% de la población mexicana se informa a través de unos cuantos minutos de noticias seleccionadas con todo rigor, a fin de hacer creer a las personas que están siendo informadas, cuando en realidad se les presenta el producto de un cuidadoso filtro. En este contexto se ubican los casos de los sistemas de encuestas con propósitos electorales.

Es bien conocida la confusión que generan mediante frases como: “encuesta de popularidad” o “intención de voto”, pero detrás de ellas se esconde un sistema de cuestionarios que nunca son dados a conocer, salvo el resultado de unas cuantas de las preguntas formuladas, dejando de lado el contexto en el cual fueron hechas. Es decir, sin mostrar cuáles fueron las preguntas anteriores y posteriores. En particular, no es lo mismo ser popular que tener intención de voto a favor pero a nivel de público televidente eso no se distingue bien y los lectores de noticias cuidan de manejarlo conforme a la línea que se les indique desde la gerencia de la empresa que los contrata para aparecer frente a las cámaras.

Las empresas encuestadoras en México.
Con el propósito de sesgarlas, las encuestas pueden ser controladas de muchas formas: una de ellas es el cuestionario mismo, otra es la forma en que es seleccionada la muestra de personas que serán encuestadas, asignando porcentajes a las capas de población y a las regiones geográficas según se considere necesario. Así, se habla de encuestas serias y de otras que no lo son, sin embargo, eso no significa gran cosa porque la palabra serio forma parte del lenguaje coloquial, de modo que puede ser entendida de formas muy distintas. Hablemos entonces de encuestas con rigor científico.

Tratándose de ciencia, el primer criterio  que se debe llenar es la posibilidad de que otros investigadores igualmente capacitados puedan reproducir los resultados. Como esto es relativamente difícil en escenarios políticos cambiantes, las empresas encuestadoras pretenden obviar esta responsabilidad que deberían tener, si de verdad se tratara de estudios fundados sobre base científica.

Sin embargo hay formas de comprobar la calidad científica de una encuesta, por ejemplo, analizando la consistencia de sus tendencias en el tiempo, así como las fluctuaciones en los porcentajes hacia arriba y hacia abajo. Además, claro está, de la formulación que se hace de los reportes mismos. El mejor ejemplo lo puede tomar uno de los estudios estadísticos sobre asuntos médicos y los trabajos experimentales sobre temas de la química, la biología y la física. La estructura de los artículos plantea siempre la formulación del problema, la muestra que se usa con todo y su grupo de control (para comparar resultados), el instrumental que se utilizó, los datos mismos, la forma en que fueron procesados, las gráficas y tablas, finalizando con una discusión, interpretación y conclusiones.

Las empresas encuestadoras no reportan nada de lo anterior, salvo sus propias conclusiones. Y debido a que la población que digiere la información a través de la televisión no sabe nada de este tema, se come la noticia como si fuera verídica. Lo que sigue es un manejo psicosociológico en el que una buena parte de la población opta por “irle al que va a ganar” porque eso de “irle al que va a perder”, no es muy aceptado.

Por lo tanto, si tenemos esta primera deficiencia en un reporte, el trabajo no puede ser considerado como científico. No pasa de ser un producto empresarial útil para quien desea o necesita consumirlo.
Uno de los productos más significativos de esta falta de seriedad es el silencio cómplice con el que las casas encuestadoras trataron en el año 2006 la frase: “empate técnico”. Aunque tuvieron la oportunidad de aclarar que se trataba de un absurdo sin fundamento matemático, callaron mientras los lectores de noticias e integrantes de partidos repetían las mismas palabras carentes de sentido. Vamos a decir enseguida por qué se trata de una tontería.

El margen de error estadístico.
El primer punto importante es cómo se calcula el margen de error de una encuesta. La forma más fácil de hacerlo es mediante la siguiente fórmula


La letra “n” representa el número de cuestionarios satisfactoriamente levantados y procesados para ser incluidos en el análisis. La letra “p” se refiere al porcentaje obtenido por el candidato cuya intención de voto se estudia. No es lo mismo el valor de “p” cuando se proyecta una encuesta que cuando ya se cuenta con el resultado. En el primero de los casos se recurre a los resultados obtenidos en semanas o meses anteriores, en cambio, cuando ya se dispone de los primeros resultados del análisis, el valor de “p” es un número conocido.

El manejo de los valores de “n” y de “p”, juegan un papel importante cuando se trata de fabricar un resultado para engañar al público e introducir la frase “empate técnico”.

Por ejemplo, supongamos que tenemos dos candidatos contendientes para una elección y que se planea una encuesta con n=1000 cuestionarios aceptables para someterlos al análisis. Si la empresa encuestadora no conoce cuáles son los posibles resultados de los porcentajes de intención de voto, lo usual es asociarle el 50% de intención de voto a cada uno. Esto se traduce en p=0.5, lo cual da un margen de error de 1.581% cuando es traducido a porcentaje.

En cambio, si ya se realizó la encuesta, y se encontró que uno de los candidatos tiene a su favor 36% de intención de voto, contra 30% del oponente, la fórmula escrita arriba significa que los respectivos márgenes de error son 1.518% para el primero y de 1.449% para el segundo. Aunque estos dos números son muy cercanos, veremos más adelante que su diferencia es muy importante a la hora de manipular la interpretación de los datos.

La confusión en la elección presidencial en 2006 y la frase empate técnico.
Cuando se trata de elecciones en las que la intención de voto está muy cercana, conviene reducir ese margen de error, a fin mejorar la calidad de la resolución. Es algo similar a lo que hacen los astrónomos cuando desean observar detalles de un planeta, mejoran la calidad del telescopio. Por ejemplo, una encuesta con 1500 cuestionarios satisfactorios para ser procesados en el análisis, me permite reducir el margen de error del candidato con 36% de intención de voto a 1.239%, mientras que la de su seguidor se reduce a 1.183%.

Si la empresa encuestadora desea contribuir a la confusión, le basta con mantener bajo el valor de “n”. Éste es uno de los elementos importantes para introducir la frase falsa: “empate técnico”.

Enseguida explicaremos cómo se resuelve el problema, o bien, cómo se abona a favor de una confusión:
Pensemos en un candidato A, con 35% de intención de voto y en un candidato B con 32% de intención de voto.

Diseño enseguida tres escenarios:
11)      Levanto una encuesta con 1000 cuestionarios satisfactorios para someterlos al análisis.
22)      Levanto la misma encuesta pero con 1 500 cuestionarios.
33)      Levanto la encuesta con solamente 900 cuestionarios.

En el primero de los casos el margen de error me lleva a afirmar que el candidato A tiene una intención de voto que se ubica entre el 33.491% como mínimo y 36.508% como máximo.

Para el candidato B mi estimación es que su intención de voto se encuentra entre 30.525% y 33.475%.

El hecho de que el máximo posible del candidato B esté a solamente 16 milésimas del mínimo del candidato A me debe preocupar si mi intención es científica, pues amerita un análisis más cuidadoso. 

Para eso tengo varias opciones y la más simple es incrementar el número de cuestionarios, así que selecciono la aplicación de 1 500 de ellos en lugar de 1000. En ese caso, mis resultados quedan como sigue:

El candidato A tiene intención de voto entre 33.768% y 36.231%.
El candidato B tiene intención de voto entre 30.796% y 33.204%

He ganado que el máximo del candidato B ya no está tan cerca del mínimo del candidato A. Así, mi afirmación en el sentido de que A es el puntero verdadero se fortalece.

En cambio, si la empresa encuestadora tiene interés en contribuir a la confusión, puede escoger el procesamiento de solamente 900 cuestionarios. En ese caso, los márgenes de error ayudan a tener el siguiente escenario de resultados:

El candidato A tiene intención de voto entre 33.410% y 36.590%.
El candidato B tiene intención de voto entre 30.445% y 33.555%.

Ahora el candidato B tiene a su disposición un margen que se traslapa con el del candidato A, de modo que la empresa encuestadora puede inducir a pensar que no hay forma de saber quién es realmente el puntero.

Si se desea hacer crecer la confusión con el apoyo de algunos integrantes del público que tengan la característica de tener algunos conocimientos de matemáticas, la empresa encuestadora puede incluir una gráfica como la que sigue para el caso de los mismos 35% y 32% pero con  1 200 cuestionarios satisfactorios para someterlos al análisis. La curva azul corresponde a la probabilidad de cada porcentaje del candidato B. La curva rojiza se refiere a la probabilidad de cada porcentaje del candidato A. La imagen muestra un traslape que parece muy importante, de modo que permite generar la idea de que no hay forma de saber quién es el verdadero candidato puntero.



Más aún, la empresa encuestadora puede procesar únicamente 900 cuestionarios y presentar la siguiente gráfica.



Estas imágenes son ópticamente importantes, buenas para ser consumidas por quienes conocen un poco de matemáticas pero ignoran, o ya no recuerdan, la teoría de la probabilidad. Hay una porción de la población mexicana que ha estudiado la teoría de funciones hasta un grado de profundidad suficiente como para comprender el significado de las gráficas, pero sin que su conocimiento sea el necesario para saber que existe una forma de enunciar correctamente la conclusión. Tampoco tienen la preparación para saber que existe una solución.

Lo interesante con toda esta gente semipreparada en matemáticas es que, siendo ingenieros en diversas disciplinas, y a veces personas con título de físico o de matemático, es que se convierten en respaldo de una situación confusa.

La interpretación estadística correcta y la solución.
Para comprender el significado de la gráfica anterior conviene plantear tres preguntas después de observarla cuidadosamente:
11)      ¿Cuál es la probabilidad de que la intención de voto del candidato A caiga a la izquierda del 37%?
22)      ¿Cuál es la probabilidad de que la intención de voto del candidato B caiga a la derecha del 30%?
33)      ¿Cuál es la probabilidad de que la intención de voto de ambos candidatos quede entre el 30% y el 37%?

Una de las primeras cosas que se aprende al iniciar el estudio de la teoría de la probabilidad es que ésta es un número que se ubica entre 0 y 1. Cuando un evento tiene probabilidad 0, significa que no ocurrirá. En cambio, cuando tiene probabilidad 1, indica que seguramente ocurrirá.
Por ejemplo, la probabilidad de que yo corra el maratón en 2 horas 10 minutos es 0, pues eso es un asunto al alcance de unos cuantos especialistas.
Así mismo, la probabilidad de que algún día llueva en Hermosillo, Sonora, es 1.

Volviendo al tema de las tres preguntas anteriores, las respuestas se obtienen mediante un procedimiento simple: Se calcula el área debajo de la curva asociada a la intención de voto de cada candidato, precisamente en el intervalo en el que ambas curvas se traslapan. Así se obtienen las respuestas a las preguntas 1 y 2. Enseguida se multiplican las dos probabilidades y se obtiene la respuesta a la tercera pregunta. Los resultados son los siguientes:
11)       La probabilidad de que la intención de voto del candidato A sea menor de 37% es 0.895. es decir, es muy probable.
22)      La probabilidad de que la intención de voto del candidato B sea superior a 30% es 0.900.
33)      La probabilidad de que la intención de voto de ambos quede entre el 30% y el 37% es de 0.806.

La conclusión correcta es que hay una probabilidad de 0.806 de que ambas intenciones de voto estén en ese intervalo, y cómo es muy alta, con esa encuesta no se puede saber quién es realmente el candidato puntero.

Para continuar, la decisión correcta no es declarar empate técnico, sino tomar el toro por los cuernos y tratar de encontrar cuál es el verdadero puntero. Eso se logra de manera sencilla si se está dispuesto a gastar más dinero en levantar el número de cuestionarios apropiado para el problema que se está enfrentando.

La gráfica que sigue nos da las distribuciones de probabilidad de las intenciones de voto de los dos candidatos si se levantan 12 000 cuestionarios satisfactorios para ser procesados en el análisis estadístico.



En este caso ya no hay traslape entre ambas curvas y la probabilidad de que las intenciones de voto se coloquen en el mismo intervalo es 0. Ahora sí se puede afirmar quién es el candidato puntero.
Los resultados anteriores demuestran que las empresas encuestadoras solamente estaban haciendo una tarea encomendada. Al mismo nivel de los estudiantes de matemáticas que se conforman con un rendimiento promedio y hacen el trabajo apenas indispensable para cumplir con la exigencia del maestro. Es precisamente este conformismo lo que los hace diferentes de los estudiantes destacados.
Pensando bien de las empresas encuestadoras, diríamos que no era económicamente rentable para ellas hacer una encuesta con 12 000 cuestionarios.

La actitud del Instituto Federal Electoral en México.
Un gobierno democrático y dispuesto a servirle a su población no puede conformarse con estas actitudes empresariales. De modo que vamos a revisar el siguiente escenario:

Supongamos que en mayo de 2006, el Instituto Federal Electoral sabía que la diferencia entre los dos candidatos punteros sería inferior al 1% de la votación.

Considerando los sistemas de conteos rápidos, en los que se toma una fotografía a las actas de las casillas y se reporta por vía inalámbrica. El IFE pudo haber ordenado el diseño de un sistema de conteo con el 23% de las casillas. Aquí ya no hay necesidad de hacer cuestionarios, basta llevar a cabo el muestreo en forma correcta, de modo que las fuentes de error se reducen mucho cuando se le compara con las posibilidades de equivocarse en las encuestas previas a la elección.

Ese porcentaje obliga a considerar 30 mil casillas, en cuyo caso el margen de error del candidato A se reduce a 0.277%, mientras que el margen de error del candidato B se reduce a 0.264%.

Este resultado es interesante, porque la suma de ambos muestra una separación de 0.542%.

Si tomamos en cuenta que la diferencia oficial entre los dos candidatos punteros en el año 2006 fue de 0.56%, encontramos que el Instituto Federal Electoral de México pudo prevenir la confusión que se armó después del 2 de julio de ese año.

En declaraciones de uno de los integrantes del Instituto Federal Electoral ante funcionarios de la Embajada de Estados Unidos en México, varias semanas antes del 2 de julio de 2006, ya estaban esperando esa posibilidad.

¿Entonces por qué no la previnieron?  La explicación más inmediata es obvia.