jueves, 4 de abril de 2019

Unidad 1.2. Conceptos básicos de la estadística

2.1        Conceptos básicos

Como otra área de conocimientos, maneja sus propios términos que la identifican de manera particular. La intención de esta sesión es revisar los términos estadísticos de uso común.

2.1.1        Definiciones.

Datos.

Son el conjunto de información recolectada (como mediciones, géneros, repuestas de encuestas.

Estadística.

Es la ciencia que se encarga de planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar e interpretar la información para extraer conclusiones basadas en los datos.

Población.

Es el conjunto completo de todos los elementos (puntuaciones, mediciones, etc.) que se someten a estudio. El conjunto es completo porque incluye a todos los sujetos que se estudiaran.

Censo.

Es el conjunto de datos de cada uno de los miembros de la población.

Muestra.

Es el subconjunto de miembros seleccionados de una población.

Por ejemplo, si se realiza un estudio sobre la población adulta votante en el país, la cual se toma un ejemplo de 2.3 millones de participantes, esta cantidad representa una muestra y la población consiste en el conjunto completo de los adultos en la edad de votar.

Uno de los objetivos de esta sesión es demostrar cómo usar los datos muestrales para obtener conclusiones sobre poblaciones. Es sumamente importante obtener datos muestrales que sean representativos de la población de la que se obtienen. Al avanzar esta sesión y analizar los tipos de datos y los métodos de muestreo, debemos enfocarnos en los siguientes conceptos clave:

·         Los datos muestrales deben reunirse de una forma adecuada, como a través de un proceso de selección aleatoria.

·         Si los datos muestrales no se reúnen de forma adecuada, resultaran tan inútiles que ningún grado de tortura estadística podrá salvarlos.

2.2        Desarrollar el pensamiento estadístico.

Para iniciar una investigación estadística, al momento de realizar un análisis estadístico con datos que hemos reunido, o que examinemos un estudio realizado por alguien más, no debemos aceptar a ciegas los cálculos matemáticos; es necesario tomar en cuenta los siguientes factores:

·         Contexto de los datos

·         Fuente de los datos

·         Métodos de muestreo

·         Conclusiones

·         Implicaciones prácticas.

Para ejemplificar los elementos anteriores tomaremos como referencia la siguiente tabla.

Tabla 1. Datos utilizados para el análisis.

X

56

67

57

60

64

Y

53

66

58

61

68

Cuando conoces la estadística básica, te equipas con muchas herramientas.

Sin embargo, en algunos casos, si decides comenzar a efectuar calculo sin tomar en cuenta algunos aspectos generales importantes, corres riesgo de realizar un análisis riesgoso. Por ello es importante tomar en cuenta las siguientes preguntas para obtener una fuente de información.

·         ¿Cuál es el contexto de los datos?

·         ¿De qué fuente se obtuvieron?

·         ¿Cómo se recabaron?

·         ¿Qué se puede concluir a partir de la información?

·         Con base en conclusiones estadísticas, ¿Qué implicaciones practicas resultan del análisis?

2.2.1        Contexto.

Si observas la tabla 1. Los datos como se presentan carecen de contexto, no indica que representan los valores, de donde provienen ni porque se recabaron.

Ejemplo.

Los datos de la tabla 1 representan los pesos (kilogramos) de estudiantes de una Universidad de la ciudad de México. Los valores X representan los pesos registrados en el mes de julio de su primer año de estudios, y los valores Y representan los pesos correspondientes registrados en agosto del siguiente semestre. Por ejemplo, el primer estudiante peso 56 kg en julio y 53 kg en agosto.

La descripción del contexto de los datos incluidos en la tabla, consisten en datos pareados, quiere decir que cada x – y de valores está conformado con un peso “antes” y un peso “después” para cada estudiante específico incluido en el estudio

Siempre se debe tomar en cuenta el contexto de los datos, ya que este determina el análisis estadístico que debe emplearse.

2.2.2        Fuente de los datos.

Es necesario considerar las fuentes de los datos y tomar en cuenta si esa fuente es objetiva o si existe alguna razón para pensar que esta sesgada.

Ejemplo.

Las mediciones de la tabla 1, fue realizado por los investigadores de la UNAM del departamento de nutriología, los investigadores no tienen razones para distorsionar o modificar los resultados con la finalidad del apoyar una postura de beneficio personal; no ganan ni pierden si alteran los resultados.

2.2.3        Métodos de muestreo.

Al reunir los datos muestrales para un estudio, el método de muestreo que se elija puede afectar de una manera importante la validez de las conclusiones, más adelante se revisaran con más detalle. Por ahora debemos señalar que las muestras de respuesta voluntaria (o muestras autoseleccionadas) a menudo están sesgadas, ya que es probable que los individuos que tienen interés especial en el tema que decidan participar en el estudio. En una muestra de respuesta voluntaria los propios sujetos pueden participar. Es posible utilizar métodos estadísticos válidos para analizar muestras de respuesta voluntaria, aunque los resultados no son necesariamente válidos. Existen otros métodos, como el muestreo aleatorio, que suelen producir buenos resultados.

Ejemplo.

En la tabla 1 los pesos provienen de una muestra más grande de pesos incluida en el conjunto de datos. Los investigadores obtuvieron los datos de sujetos que participaron voluntariamente en una evaluación de salud realizada en julio, durante su primer año de estudios. Los 315 estudiantes participaron en la evaluación de julio, fueron invitados para un estudio de seguimiento en agosto; de ellos, 85 aceptaron la invitación para ser pesados nuevamente.

Se trata de una muestra de respuesta voluntaria. Los investigadores reportaron que “la muestra obtenida no fue aleatoria y podría haber un sesgo de autoselección”. Los autores profundizaron en el potencial de sesgo al hacer una lista especifica de fuentes potenciales de sesgo; por ejemplo, es posible que “solo aquellos estudiantes que se sintieron suficientemente cómodos con su peso aceptaran someterse a medición en ambas ocasiones”.

2.2.4        Conclusiones.

Al obtener conclusiones a partir de un análisis estadístico, es necesario hacer afirmaciones que sean claras para las personas sin conocimientos de estadística y de su terminología. Se debe evitar de manera cuidadosa realizar afirmaciones que no estén justificadas por el análisis estadístico.

Ejemplo.

La tabla 1 incluye pesos, antes y después, de cinco sujetos, los cuales al analizarlos los investigadores concluyeron que los estudiantes aumentan de peso durante el primer año de estudios universitarios, sin embargo, también comentaron que, en el pequeño grupo aleatorio estudiado, el incremento fue mínimo y que no es universal.

2.2.5        Implicaciones prácticas.

Además de plantear conclusiones claras a partir de análisis estadísticos, también se debe identificar cualquier implicación práctica de los resultados.

Ejemplo.

Tomando como referencia los datos de la tabla 1. Los investigadores señalan algunas implicaciones prácticas de sus resultados. Ellos afirmaron “quizás sea más importante que los estudiantes reconozcan que los cambios aparentemente mínimos e incluso inofensivos en los hábitos alimenticios y de ejercicio podrían producir grandes cambios en el peso y el contenido de grasa corporal durante un periodo largo, los estudiantes que inician el primer año de universidad deben reconocer que las rutinas de alimentación y de ejercicio radicalmente diferentes pueden tener consecuencias graves en la salud”.

2.3        Tipos de datos.

Un objetivo de la estadística es realizar inferencias o generalizaciones acerca de una población. Además de los términos población y muestra que se definieron al principio necesitamos conocer el significado de conceptos de parámetro y estadístico. Estos nuevos términos se utilizan para distinguir entre los casos en que contamos con los datos de una población completa y los casos en los que solo contamos con los datos de una muestra.

También necesitamos identificar entre datos cuantitativos y datos categóricos que distinguen entre diferentes tipos de números. Como los que aparecen en las playeras de los jugadores de futbol, no son cantidades en el sentido de que realimente no miden ni cuentan algo y no tienen sentido realizar cálculos con ellos. La intención es describir distintos tipos de datos, los cuales determinan los métodos estadísticos que se utilizan para el análisis.

En la parte anterior se definió los términos población y muestra. Los siguientes dos términos se utilizan para distinguir entre los casos en que tenemos datos de una población completa y los casos donde solo tenemos una muestra.

2.3.1        Definiciones.

Parámetro.

Es una medición numérica que describe algunas características de una población.

Estadístico.

Es una medición numérica que describe algunas características de una muestra.

Ejemplos.

Parámetro:

Hay exactamente 100 senadores en el congreso de la unión y el 50% de ellos pertenecen al partido amarillo.

La cifra de 50% es un parámetro, porque está basada en la población de 100 senadores.

Estadístico:

en 2006 se realizó una encuentra a 1.5 millones de personas adultas mexicanas, y el 48% dijo que votaría por el partido verde.

La cifra del 52% es un estadístico, ya que se basa en una muestra y no en una población completa de todos los adultos de México.

Algunos conjuntos de datos consisten en números (como estaturas), mientas que otros no numéricos (como los colores de los ojos). Los términos datos cuantitativos y datos cualitativos suelen utilizarse para distinguir entre ambos tipos.

Datos cuantitativos o numéricos.

Consisten en números que representan conteos o mediciones.

Datos categóricos, cualitativos o de atributo.

Consisten en nombre o etiquetas que no son números y que, por lo tanto, no representan conteos ni mediciones.

Ejemplos.

Datos cuantitativos.

Las edades (en años) de participantes de encuestas.

Datos de atributo.

La afiliación a partidos políticos (verde, blanco, amarillo, independiente) de los participantes de la encuesta.

Datos categóricos.

Los números de playeras de un equipo de basquetbol, estos números son sustitutos de los nombres; no cuentan ni miden algo, por lo que son categóricos.

Cuando se organizan datos cuantitativos y se elaboran informas sobre ellos es importante utilizar las unidades adecuadas de medición (pesos, dólares, kilogramos, pies, metros, etc.) para interpretar los datos de forma correcta. Ignorar unidades de medida como estas nos llevaría a conclusiones incorrectas.

Dato curioso.

La NASA perdió su Mars Climate Orbiter de $125 millones de dólares cuando la sonda se estrelló debido a que el programa de control tenia los datos de aceleración en unidades inglesas, pero los operadores consideraron incorrectamente que estaban en unidades métricas.

Los datos cuantitativos se observan con más detalle si se clasifican en dos tipos, discreto y continuo.

Datos discretos.

Consisten en números que representan conteos o mediciones, resultan cuando el número de valores posibles es un número finito o un número que “puede contarse” (es decir, el número de valores posibles es 0, 1, 2, etc.)

Datos continuos (numéricos)

Resultan de un número infinito de posibles valores, que corresponden a alguna escala continua que cubre un rango de valores sin huecos, interrupciones o saltos.

Ejemplos.

Datos discretos.

El número de huevos que ponen las gallinas son datos continuos por representar conteos.

Datos continuos.

La cantidad de leche que producen las vacas son datos continuos porque son mediciones que pueden tomar cualquier valor dentro de un continuo. En un año una vaca puede producir de 0 a 7000 litros, ella puede obtener 5459.12455 litros porque la vaca no está restringida a cantidades discretas de 0, 1, 2, …, 7000 litros.

Otra forma de clasificar los datos consiste en usar cuatro niveles de medición:

·         Nominal.

·         Ordinal.

·         De intervalo.

·         De razón.

Estos elementos son de vital importancia para determinar el procedimiento a utilizar en problemas reales. Sin embargo, lo importante aquí se basa en el sentido común: no hay que efectuar cálculos ni utilizar métodos estadísticos que no sean adecuados para los datos. Por ejemplo, no tendría sentido calcular el promedio de los números del seguro social, ya que los números son datos que se utilizan como identificación, y no representan mediciones o conteos de algo.

Nivel de medición nominal.

Se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de orden (como del más bajo al más alto).

Ejemplo.

1.       Si / no / indeciso:  respuesta de si, no he indeciso en una encuesta.

2.       Partido político: la filiación política de los participantes de la encuesta (partido verde, azul, amarillo, rojo, etc.)

Puesto que los datos nominales carecen de orden y no tienen significado numérico, no deben utilizarse para realizar calculo, muchas veces los números 1, 2, 3 y 4 se asignan a diferentes categorías, pero estos números no tienen significado real y cualquier promedio que se calcule con ellos carecerá de sentido.

Nivel de medición ordinal.

Cuando pueden acomodarse en algún orden, aunque las diferencias entre los valores de los datos (obtenidas por medio de una resta) no pueden calcularse o carecen de significado.

Ejemplo.

1.       Las calificaciones de un curso: Un profesor universitario asigna calificaciones de A, B, C, D o F. Tales calificaciones se pueden ordenar, aunque no es posible determinar diferencias entre ellas. Por ejemplo, sabemos que A es mayor que B (por lo que hay un orden); pero no sabemos restar B de A (de manera que no es posible calcular la diferencia).

2.       Rangos: América Economía es un portal referente en el mundo de los negocios y clasifica a las universidades de México. Dichas clasificaciones (primer lugar, segundo, tercero, etc.) determinan un orden. Sin embargo, las diferencias entre lugares no tienen ningún significado. Por ejemplo, una diferencia “del segundo menos el primero” sugeriría 2–1=1, pero el resultado carece de significado porque no es una cantidad exacta que sea comparable con otras diferencias de este tipo. Las diferencias entre universidades no se pueden comparar de manera cuantitativa.

Los datos ordinales brindan información sobre comparaciones relativas, pero no sobre las magnitudes de las diferencias. Por lo general, los datos ordinales no deben utilizarse para realizar cálculos como promedios, aunque en ocasiones esta forma se infringe (como sucede cuanto utilizamos calificaciones con letras para calcular una calificación promedio).

Nivel de medición de intervalo.

Se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel no tienen punto de partida cero naturales inherentes (donde la cantidad que esté presente corresponde a nada).

Ejemplo.

1.       Temperaturas: las temperaturas corporales de 65º y 63ºC son ejemplos en el nivel de medición de intervalo. Dichos valores están ordenados, y podemos determinar su diferencia de 3ºC. Sin embargo, no existe un punto de inicio natural. Pareciera que el valor 0ºC es el punto de inicio; sin embargo, este es arbitrario y no representa la ausencia de calor.

2.       Años: los años 1492 y 1776. (el tiempo no inicio en el año 0, por lo que el año 0 es arbitrario y no constituye un punto de partida cero naturales que represente “la ausencia de tiempo”).

Nivel de medición de razón.

Es similar al nivel de intervalo, pero con la propiedad adicional de que si tiene un punto de partida cero naturales (donde el cero indica que nada de la cantidad está presente). Para valores en este nivel, tanto las diferencias como las razones tienen significado.

Los siguientes ejemplos de datos de nivel de medición de razón, observa la presencia de un valor cero naturales, así como el uso de razones que significan “dos veces” y “tres veces”.

Ejemplo.

1.       Distancias: las distancias (n Km) recorridas por automóviles (0 Km representa ninguna distancia recorrida, y 450 km es el doble de 200km)

2.       Precios: los precios de libros de texto universitario ($0 realmente representa ningún costo, y un libro de $300 cuesta tres veces que un libro de $100).

Este nivel de medición se denomina de razón porque el punto de partida cero hace que las razones o los cocientes tengan significado. Tú puedes crear una tabla de comparación sobre los niveles de medición, puedes apoyarte en la siguiente tabla.

Niveles de medición

De razón

Hay un punto de partida cero naturales y las razones tienen significado

Ejemplo, distancia

De intervalo

Las diferencias tienen un significado, pero no hay punto de partida cero naturales, y las razones no tienen significado.

Ejemplo. Temperaturas corporales en grados Fahrenheit o Celsius.

Ordinal.

Las categorías están ordenadas, pero no hay diferencias o estas carecen de significado.

Ejemplo. Las clasificaciones de las universidades.

Nominal.

Solo categorías. Los datos no pueden acomodarse en un esquema de orden.

Ejemplo: el color de los ojos.


No hay comentarios.:

Publicar un comentario

Unidad 2. 1. Antecedentes normativos en suelos

  Es importante conocer los sistemas normativos con respecto a la contaminación del suelo, dado que son estos los que regulan los límit...