La semana pasada en esta serie pensada para entender el funcionamiento de las encuestas, hablábamos de las preguntas de investigación. Son elementos fundamentales de estas herramientas que buscan conocer la opinión de distintas poblaciones. El planteamiento adecuado de la pregunta determinará si los resultados son óptimos, confiables y precisos o no. Sin embargo, no es el único elemento involucrado. Las encuestas son instrumentos complejos y otro de los componentes que hay que considerar es el muestreo. Este proceso para determinar la población a la que hay que aplicar el cuestionario, junto con el análisis de los resultados, es uno de los aspectos más complicados de las encuestas. Implica cálculos precisos, decisiones minuciosas y depende del acceso información fidedigna. Por lo mismo, para no fatigar con una elaborada disquisición sobre el teorema del límite central o con la enumeración de detalles estadísticos, alejemos el enfoque. ¿Cómo se define la población de la encuesta? ¿Cómo garantizar que sea representativa de la población a estudiar?
Es crucial el muestreo, la definición de la muestra poblacional a la que se le aplicarán las preguntas, porque de ahí surge la información de la encuesta. En otras palabras, su objetivo es definir con claridad qué parte de una población será examinado para poder generalizar los resultados para que representen a toda esa población. Por eso si el muestreo fue deficiente, la información será deficiente. Una de las consecuencias principales del muestreo errado es la imposibilidad para generalizar los hallazgos. Esta falencia común a muchas encuestas provoca que las conclusiones del análisis de datos carezcan de validez porque no son representativas de la población a la que supuestamente interrogaron. No importa que la pregunta de investigación esté perfectamente delimitada, el esfuerzo y la inversión habrán sido en vano.
Es claro que lo ideal para toda investigación de opinión pública sería poder conocer el parecer de todas las personas pertenecientes a la población que la encuesta define como objetivo. Pero es claro que en la mayoría de los casos es imposible. Un caso de este tipo de muestreo es el censo. Y como sabemos, es un emprendimiento nacional, que consume una gran cantidad de recursos y que no cualquier entidad puede intentarlo ni conseguirlo. Por eso es que el muestreo permite reducir tiempos y costos sin sacrificar precisión. En México, en términos de muestreo, la situación es muy positiva gracias a las bases de datos completas –las del INE, o los datos que provee el INEGI– a las que se puede tener acceso. Contrario a otros países, la práctica de hacer encuestas en domicilio incrementan su confiabilidad gracias precisamente a la disponibilidad de estos padrones. En encuestas telefónicas y por internet, hace falta incrementar los esfuerzos y la cooperación para identificar listas o padrones que permitan tener certeza sobre las poblaciones encuestadas.
Existen una variedad de distintas maneras de hacer este tipo de muestras. La primera división, la más sencilla es la que parte en dos el grupo de herramientas de muestreo. Por un lado están los muestreos probabilísticos y por otro los no probabilísticos. Los primeros son los que emplean, como su nombre lo indica, el azar para que todas las muestras posibles tienen posibilidad de ser elegidas; es decir son las que aseguran que la muestra sea representativa. El segundo grupo, el no probabilístico, son los estudios que se sabe no serán generalizables porque la muestra –por conveniencia, por economía, por limitación de acceso a la población, entre otras muchas razones– se eligió siguiendo criterios propios, determinados. Aunque es posible en algunos casos que se resuelvan los problemas de representatividad, por lo general al prescindir de lo aleatorio, no lo son. Enfoquémonos, entonces, en el primer grupo. Las muestras probabilísticas son las más empleadas por las investigaciones de opinión y de mercado. De estos, mencionaré solamente dos de las variantes más comunes.
¿Cómo elegir esa fracción de población para que la investigación funcione?, es la siguiente interrogante. Si tomamos un cierto número de integrantes de la población total pueden resultar poco representativos y eso desvía la investigación. Para ello, la primera es la conocida como muestreo aleatorio simple. Para este método se requiere conocer a todos los individuos de la población. Sabiendo esto, el proceso es sencillo: se le asigna un número a cada uno y después por medio de un generador electrónico de números aleatorios, o un sorteo, o cualquier otro método verdaderamente aleatorio, se elige un número significativo. Por lo general a este número se le identifica con la letra n.
El muestreo aleatorio estratificado es otro ejemplo de métodos probabilísticos de muestreo. Este lo que intenta es garantizar la representatividad de segmentos minoritarios de la población. Si buscamos, por ejemplo, de un pueblo, a todos los adultos, es probable que haya muy pocos adultos mayores de 80 años y no es seguro que formen parte del muestreo si empleamos el método aleatorio simple. En cambio, al estratificar la población en categorías (grupos de edad, en el ejemplo propuesto), y a cada uno de estos grupos se le aplican distintos tipos de afijaciones, o de maneras de seleccionar. Pueden ser que a cada una de las categorías se le asigne una cantidad de muestras, o se asignen diferenciadas según el tamaño de cada una de las categorías. . Así queda garantizado que no hay ninguna categoría sin representación.
Ahora bien, la selección de la muestra es una ciencia compleja y especializada. ¿Cómo saber que la muestra es del tamaño adecuado? Esta es la zona del muestreo que más conocimiento avanzado requiere. Existen fórmulas y conceptos que tomaría más de una columna explicarlo. Baste decir que hay una gran cantidad de literatura y experiencia sobre este punto que permite tener claro los rangos necesarios mínimos de elementos en cada muestra para garantizar su representatividad.