Introducción.
Los métodos que se analizan en esta sección son importantes ya que el método que se utiliza para reunir datos muestrales redunda en la calidad del análisis estadístico. El concepto de una muestra aleatoria simple es especialmente importante, mientras debemos tener presente la siguiente definición:
Si los datos muestrales no se reúnen de forma adecuada resultaría tan inútiles que ningún grado de tortura estadística podría salvarlos.
Este capítulo introduce los fundamentos de la recolección de datos y la otra refina la comprensión de dos tipos de estudios; los estudios observacionales y los experimentos.
Fundamentos de la recolección de datos.
Los métodos estadísticos se rigen por los datos recabados. Por lo regular, obtenemos datos de dos fuentes distintas: estudios observacionales y los experimentos.
Definiciones.
Estudio observacional.
Observa y mide características específicas, pero no se intenta modificar a los sujetos que estamos estudiando.
Experimento.
Cuando se establece una condición o tratamiento a un estudio estadístico, se le considera un experimento.
Ejemplos:
Estudio observacional.
Un ejemplo de este estudio puede ser una encuesta a un grupo de personas sobre las elecciones del 2018. Se interrogo a los individuos en relación con sus preferencias electorales, pero no se les aplico ningún tratamiento.
Experimento.
Si se realiza un experimento con dos grupos de personas, las primeras recibieron un tratamiento para la hepatitis B y la otra para el sarampión. En este caso, las vacunas son tratamientos que modifican a los sujetos, por lo que se trata de un experimento,
Ya sea que se realice cualquiera de estos dos estudios, es importante la elección de la muestra de sujetos de forma tal que represente a la población en general. Aunque las muestras de respuesta voluntaria son muy comunes, sus resultados no suelen ser útiles para hacer inferencias validas acerca de las poblaciones grandes.
Definiciones.
Muestra aleatoria simple.
Una muestra aleatoria simple de n sujetos se selecciona de manera que cada posible muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.
Partiendo de esta definición estableceremos otras dos definiciones.
Muestra aleatoria.
Los miembros de la población se seleccionan de forma que cada miembro individual tenga la misma posibilidad de ser elegido.
Muestra probabilística.
Implica seleccionar a miembros de una población de forma que cada miembro tenga la posibilidad conocida (aunque no necesariamente la misma) de ser elegido.
Revisa el siguiente ejemplo para diferencias cada una de las definiciones anteriores.
Ejemplo.
Muestreo de senadores.
Cada uno de los 32 estados de la República Mexicana envía diputados al congreso de la unión, de manera que hay 80 senadores. Suponga que se anota el nombre de cada estado en una tarjeta separada, que se mezclan las 40 tarjetas en un recipiente y después se selecciona una de ellas. Si suponemos que los dos senadores del estado seleccionado constituyen una muestra ¿el resultado es una muestra aleatoria? ¿una muestra aleatoria simple? ¿una muestra probabilística.
Solución.
Si observas, se trata de una muestra aleatoria porque cada diputado tiene la misma probabilidad (una a 40) de ser elegido. No se trata de una muestra aleatoria simple porque no todas las muestras de tamaño 2 tienen la misma probabilidad de ser elegidas, (quiere decir que sería imposible seleccionar a dos senadores de estados diferentes). Es una muestra probabilística porque cada diputado tiene una probabilidad conocida (una de 40) de ser elegido.
Existen otras técnicas de muestreo, describiremos los más comunes.
Muestreo sistemático.
Elegimos algún punto de partida y luego seleccionamos cada k-esimo (por ejemplo, cada 15 elementos de una población)
Muestra de conveniencia.
Se utilizan los resultados que sean más fáciles de obtener.
Muestreo estratificado.
Se subdivide a la población en al menos dos subgrupos diferentes, de manera que los sujetos que pertenecen al mismo subgrupo compartan las mismas características (genero, categoría de edad) y luego se obtiene una muestra de cada subgrupo.
Muestreo por conglomerados.
Se divide el área de la población en secciones (o conglomerados), luego se elige al azar algunos de estos conglomerados y después se elige a todos los miembros de los conglomerados seleccionados.
Debemos de cuidar no confundir al muestreo estratificado y el muestreo por conglomerados, ya que ambos implican la formación de subgrupos. Para diferenciarlos tomemos en cuenta lo siguiente:
El muestreo por conglomerados considera a todos los miembros de una muestra de conglomerados.
El muestreo estratificado emplea una muestra de los miembros de todos los estratos.
Metodología del muestreo aleatorio simple.
Dentro del muestreo probabilístico existen diversos métodos para obtener el tamaño de una muestra, a continuación, estudiaras el muestreo aleatorio simple, el cual consiste en los siguientes pasos.
1. Definir la población de estudio y el parámetro a estudiar.
Como recordaras, la población es el grupo formado por el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Por lo tanto, el paso 1 es determinar la que se va a estudiar.
Por ejemplo: un investigador realiza un estudio sobre las relaciones de género en el noviazgo, su objeto de estudio son las manifestaciones de violencia física y psicológica entre los estudiantes del último año de la carrera de ingeniería. Su población es el total de estudiantes del último año de ingeniería que tengan novio o novia; el total de individuos con esta característica es de 386 en este ejemplo. Por lo que, la población es de 386 individuos y las variables: violencia física y violencia psicológica.
2. Enumerar a todas las unidades de análisis que integran la población, asignándoles un número de identidad o identificación.
Una vez que se ha definido la población y las variables a estudiar, es necesario asignar un número de identificación a cada individuo de la población. Siguiendo con el ejemplo de las relaciones de género en el noviazgo en los estudiantes de ingeniería, lo que sigue es enumerar a los 386 estudiantes con un número de 1 al 386.
3. Definir la población de estudio y el parámetro a estudiar.
Definir el tamaño de la población significa determinar el número de individuos que la constituyen; la variable N representa el tamaño de la población. Esto es, N=X.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
a. El porcentaje de confianza con el cual se quiere generalizar los datos de la muestra hacia la población total.
b. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.
c. El nivel de variabilidad que se calcula para comprobar la hipótesis.
A continuación, se describen los conceptos enlistados.
Porcentaje de confianza.
Es el grado o nivel de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población (censo). Se denota como Z.
Para evitar un costo muy alto se busca un porcentaje de confianza menor, comúnmente es un 95%. El nivel de confianza es la probabilidad que establecemos (sin hacer ningún calculo) para poder acertar al valor verdadero de la población.
Nota: Al estandarizar este valor, el 95% de confianza corresponde a una Z=1.96.
Porcentaje de error.
Este error es una distancia alrededor del valor que se desea estimar y da un margen de aproximación. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población (censo), por lo que conviene realizar un muestreo que implica menos tiempo y menor costo, aunque se corre un cierto riesgo de equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta que no son complementarios la confianza t el error, es decir, que en un muestreo podemos tener 95% de confianza con 6% de error.
Variabilidad.
Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere comprobar. El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se indica con p (también llamada probabilidad de éxito), y el porcentaje con el que se rechazó la hipótesis es la variabilidad negativa, identificada con q, también llamada probabilidad de fracaso, y se obtiene como q = 1 – p.
Variabilidad positiva p es la probabilidad de que suceda el evento. Variabilidad negativa q es la probabilidad de que no suceda el evento. Para este curso se considerará siempre p = 0.5, y por lo tanto q = 1 – 0.5 = 0.5.
4. Determinar el tamaño óptimo de muestra para el estudio.
Una vez que la población, el porcentaje de confianza, el porcentaje de error y el nivel de variabilidad han sido determinados, se debe calcular el tamaño de la muestra. En este paso se utilizan las siguientes formulas, en donde la primera implica que no se conoce el tamaño de la población y la segunda se utiliza cuando si se conoce el tamaño de la población.
Desconocimiento del tamaño de la población.
n es el tamaño de la muestra | |
z es el nivel de confianza. | |
p es la variabilidad positiva |
|
q es la variabilidad negativa |
|
E es la precisión o error. |
Ejemplo.
en un lote grande de medicinas se desea verificar que la proporción de los ingredientes activos sea el adecuado. Se debe determinar el tamaño de la muestra para un nivel de confianza del 95% con un error del 5%. Si la variabilidad es de p = q = 0.5.
Solución:
Para que el nivel de confianza sea igual al 95% se tiene que p(Z)=0.95 si Z=1.96
Debido a que la variabilidad y el error se pueden expresar por medio de porcentajes, en el caso necesario, hay que convertir esos valores a proporciones.
Sustitución:
Al sustituir los valores en la fórmula se obtienen los siguientes resultados:
Es decir, se ocupará una muestra de aproximadamente 384 unidades.
Conocimiento del tamaño de la población.
n es el tamaño de la muestra | |
Z es el nivel de confianza. | |
p es la variabilidad positiva | |
q es la variabilidad negativa | |
E es la precisión o error. | |
N es el tamaño de la población. |
Ejemplo.
En un lote de 25,000 cajas de medicina se desea verificar que la proporción de los ingredientes activos sea el adecuado. Se debe determinar el tamaño de la muestra para un nivel de confianza del 95% con un error del 5%. Si la variabilidad es p = q = 0.5
Solución:
Para que el nivel de confianza sea igual al 95% se tiene que p (Z) = 0.95 si Z = 1.96
Sustitución:
En otras palabras, se ocupará una muestra de aproximadamente 378 cajas.
5. Seleccionar la muestra usando números aleatorios.
El último paso para obtener la muestra es saber que individuos específicos de la población se tomaran. Para hacer esto se debe:
a) Numerar a los individuos del 1 al N (donde N es el tamaño de la población).
b) Generar números aleatorios mediante herramientas informáticas (por ejemplo, hojas de cálculo con la función “=aleatorio ()”), funciones en calculadora o bien utilizando tablas de números aleatorios. También puedes generar números aleatorios de formas mecánicas, por ejemplo, sacando números de una urna o lanzando una moneda al aire.
c) Tomar los individuos correspondientes a los números elegidos.