Introducción.
Con frecuencias organizamos y resumimos los datos de forma numérica en tablas o de forma visual en gráficas. La representación que elijamos depende del tipo de datos con que se cuente. Sin embargo, el objetivo principal no es simplemente obtener alguna tabla o gráfica, sino analizar los datos y entender lo que indica.
Para ello debemos identificar las siguientes características de los datos.
- Centro. Valor promedio o representativo que indica la localización de la mitad del conjunto de los datos.
- Variación. Medida de la cantidad en que los valores de los datos varían entre sí.
- Distribución. La naturaleza o forma de la distribución de los datos sobre el rango de valores (como en forma de campana, distribución uniforme o sesgada).
- Valores atípicos. Valores muestrales que está muy alejados de la vasta mayoría de los demás valores de la muestra.
- Tiempo. Características cambiantes de los datos a través del tiempo.
Recomendaciones de estudio: algunas veces la memorización suele ser eficaz para aprender o recordar información importante. Sin embargo, las características anteriores mencionadas son tan importantes que pueden recordarse mediante la técnica mnemónica con las iniciales CVDVT, que significan "Cuidado con las vacas que destruyen el valioso trabajo", este tipo de técnica se hace efectiva para recordar palabras claves.
Distribuciones de frecuencias.
Cuando trabajamos con grandes conjuntos de datos, a menudo es útil organizarlos y resumirlos elaborando una tabla llamada distribución de frecuencias. Con la aplicación de la tecnología generar distribuciones de frecuencias se vuelve más fáciles.
Definiciones.
Distribución de frecuencias (Tabla de frecuencias).
Indica como un conjunto de datos se divide en varias categorías (o clases) al listar todas las categorías junto con el número de valores de los datos que hay en cada una.
Para realizar y definir el concepto anterior partiremos de un ejemplo específico.
Considera las medidas del pulso (latidos por minuto) obtenidas de una muestra aleatoria simple de 40 hombres y de otra muestra aleatoria simple de 40 mujeres, con los resultados que se representan en la tabla 1.
Hombres
| |||||||||||||||||||
76
|
72
|
88
|
60
|
72
|
68
|
80
|
64
|
68
|
68
|
80
|
76
|
68
|
72
|
96
|
72
|
98
|
72
|
64
|
80
|
64
|
80
|
76
|
76
|
76
|
80
|
104
|
88
|
60
|
76
|
72
|
72
|
88
|
80
|
60
|
72
|
88
|
88
|
124
|
64
|
Mujeres.
| |||||||||||||||||||
68
|
64
|
88
|
72
|
64
|
72
|
60
|
88
|
76
|
60
|
96
|
72
|
56
|
64
|
60
|
64
|
84
|
76
|
84
|
88
|
72
|
56
|
68
|
64
|
60
|
68
|
60
|
60
|
56
|
84
|
72
|
84
|
88
|
56
|
64
|
56
|
56
|
60
|
64
|
72
|
Tabla 1 Pulsos (latidos por minuto) de hombres y mujeres.
Los datos anteriores se resumen en la siguiente tabla 2, que corresponde a una distribución de frecuencias que resume los pulsos de las mujeres del listado de la tabla 1, la frecuencia de una clase en particular es el número de valores originales que caen en esa clase, por ejemplo, la primera clase de la tabla 2 tiene la frecuencia de 12, lo que indica que 12 de los pulsos originales están entre 60 y 69 latidos por minuto.
Tabla 2 Pulsos de mujeres
Los limites inferiores de clase.
Son las cifras más pequeñas que pueden pertenecer a las diferentes clases. (Los límites inferiores de clase de la tabla 2 son: 60, 70, 80, 90, 100, 110 y 120).
Límites superiores de clase.
Son las cifras más grandes que pueden pertenecer a diferentes clases (los límites superiores de clase de la tabla 2 son: 69, 79, 89, 99, 109, 119 y 129).
Fronteras de clase.
Son las cifras que se utilizan para separar las clases, pero sin los espacios creados por los límites de clase. En la figura 1 se muestran los espacios creados por los límites de clase de la tabla 2. En la figura 1 se observa con facilidad que los valores 69.5, 79.5, …, 119.5 están en el centro de esos espacios, y a tales cifras se les conoce como fronteras de clase. Siguiendo al patrón establecido, notamos que la frontera de la clase inferior es 59.5, 69.5, 79.5, …, 119.5, 129.5
Figura 1 Determinación de las fronteras de clase.
Las marcas de clase.
Son los puntos medios de las clases (las marcas de clase de la tabla 2 son 64.5, 74.5, 84.5, 94.5, 104.5, 114.5 y 124.5). Las marcas de clase se calculan sumando el límite inferior de clase con el límite superior de la clase y dividiendo el resultado entre 2.
La anchura de clase.
Es la diferencia entre dos límites inferiores de clase consecutivos o dos fronteras inferiores de clase consecutivas en una distribución de frecuencias (la anchura de clase de los datos de la tabla 2 es de 10).
Las definiciones de anchura de clase y frontera de clases son algunas veces engañosas, deberás tener cuidado para evitar confundirlos.
Cómo construir una distribución de frecuencias.
Las distribuciones de frecuencia se construyen por las siguientes razones:
- Permite resumir conjuntos grandes de datos.
- Identifica cierta comprensión sobre la naturaleza de los datos.
- Brinda una base para construir gráficas.
Aunque la tecnología permite construir distribuciones de frecuencias de manera automática, los pasos para su elaboración manual son los siguientes:
- Determinar el número de clase que desea, se recomienda que se de 5 y 20. El número que se elija puede verse afectado por la comodidad de usar cifras enteras.
- Calcule la anchura de clase.
Para obtener un número más adecuado, es preferible que se redondee el resultado, generalmente hacia arriba.
- Elige un número para el límite inferior de la primera clase. Elija un valor del dato más bajo o un valor conveniente que sea un poco más pequeño.
- Usando el límite inferior de la primera clase y anchura de clase, enlista los demás límites inferiores de clase (sume la anchura de clase al límite inferior de la primera clase para obtener el segundo límite inferior de clase. Después sume la anchura de clase al segundo límite inferior para obtener el tercero y así sucesivamente).
- Anota los límites inferiores de clase en una columna vertical y luego proceda a anotar los límites superiores de clase.
- Toma el valor de cada dato y pon una marca de clase adecuada. Agrega las marcas para obtener la frecuencia total de cada clase.
Cuando construyas una distribución de frecuencias, asegurate de que las clases no se traslapan, de modo que cada uno de los valores originales pertenezca exactamente a una de las clases. Incluye todas las clases aún tengan la frecuencia cero, trata de utilizar la misma anchura para todas las clases, aunque a veces es imposible evitar intervalos con finales abiertos, como "65 años o mayores".
Ejemplo 1.
Utilizando la tabla 1 pulso de mujeres y siguiendo el procedimiento anterior para construir la distribución de frecuencias de la tabla 2, incluye 7 clases.
Solución:
Paso 1 Selecciona 7 clases.
Paso 2. Calcula la anchura de clase. Observa que un valor decimal se redondea a la cantidad más próxima hacia arriba.
Paso 3. Elige 60 como primer límite inferior de clase, ya que es el valor más bajo de la lista y un número conveniente.
Paso 4. Suma la anchura de clase 10 a 60 para determinar el segundo límite inferior de la clase. Continúa y suma la anchura de clase 10 para obtener los limites inferiores de clase restantes de 80, 90, 100 y 120.
Paso 5. Enlista los límites inferiores de clase de forma vertical como se muestra en la tabla 3, con esta lista podemos identificar con facilidad los limites superiores de clase correspondiente que son 69, 79, 89, 109, 119 y 129.
60
|
70
|
80
|
90
|
100
|
110
|
120
|
Paso 6. Anota una marca para cada valor en la clase adecuada y luego sumarlas para obtener las frecuencias que se presentan en la tabla 2.
Cuando construyas una distribución de frecuencias, asegurate de que las clases no se traslapan, de modo que cada uno de los valores originales pertenezca exactamente a una de las clases. Incluye todas las clases aún tengan la frecuencia cero, trata de utilizar la misma anchura para todas las clases, aunque a veces es imposible evitar intervalos con finales abiertos como "65 y mayores".
Distribución de frecuencias relativas.
Una variante de la distribución de frecuencias es la distribución de frecuencias relativas. En este tipo de distribución, la frecuencia de una clase se sustituye con una frecuencia relativa (una proporción) o una frecuencia porcentual (un porcentaje), cuando se utilizan porcentajes se le conoce como frecuencia relativa porcentual. Para tal efecto se utilizará "Distribución de frecuencias relativas". Para calcular estas frecuencias se utilizan las siguientes formulas:
Tomando como referencia la tabla 2, se agrega una columna para determinar la frecuencia relativa, para ello dividimos el valor de una frecuencia entre la suma total de las frecuencias
Pulso
|
Frecuencia
|
Frecuencia relativa
|
60 – 69
|
12
|
30%
|
70 – 79
|
14
|
35%
|
80 – 89
|
11
|
27.5%
|
90 – 99
|
1
|
2.5%
|
100 – 109
|
1
|
2.5%
|
110 – 119
|
0
|
0
|
120 – 129
|
1
|
2.5%
|
Total
|
40
| |
La suma de las frecuencias relativas en una distribución de frecuencias relativas debe acercarse a 1 o a 100%
Distribución de frecuencias acumuladas.
La frecuencia acumulada de una clase es la suma de las frecuencias para esas clases y todas las clases anteriores, como se presenta a continuación.
Pulso
|
Frecuencia acumulada
|
Menor a 70
|
12
|
Menor a 80
|
26
|
Menor a 90
|
37
|
Menor a 100
|
38
|
Menor a 110
|
39
|
Menor a 120
|
39
|
Menor a 130
|
40
|
Todo lo anterior podemos representarlo dentro de una tabla consecutiva donde los datos obtenidos se muestran dentro de ella.
Clase
|
Intervalo de clase
|
Frecuencia
|
Frecuencia acumulada
|
Frecuencia relativa
|
Distribución de porcentajes
|
Distribución de porcentajes acumulados
|
Marca de clase
|
1
|
60 – 69
|
12
|
12
|
0.3
|
30%
|
64.5
| |
2
|
70-79
|
14
|
26
|
0.35
|
35%
|
65%
|
74.5
|
3
|
80-89
|
11
|
37
|
0.275
|
27.5%
|
92.5%
|
84.5
|
4
|
90-99
|
1
|
38
|
0.025
|
2.5%
|
95%
|
94.5
|
5
|
100-109
|
1
|
39
|
0.025
|
2.5%
|
97.5%
|
104.5
|
6
|
110-119
|
0
|
39
|
0
|
0%
|
97.5%
|
114.5
|
7
|
120-129
|
1
|
40
|
0.025
|
2.5%
|
100%
|
124.5
|