Saltar al contenido principal

Módulo 2: Exploración y selección de datos en DataFrames

Objetivos del módulo

Al finalizar estos módulos serás capaz de:

  • Explorar rápidamente un DataFrame
  • Entender la estructura interna de los datos
  • Identificar tipos de datos y columnas
  • Seleccionar filas y columnas de distintas formas
  • Filtrar datos usando condiciones lógicas

Usaremos el siguiente DataFrame durante todo el módulo:

import pandas as pd

data = {
"estacion_id": ["EST-01", "EST-02", "EST-03", "EST-04", "EST-05", "EST-06", "EST-07", "EST-08"],
"region": ["Norte", "Norte", "Centro", "Sur", "Centro", "Centro", "Sur", "Centro"],
"temperatura_c": [18.5, 21.0, 19.8, 16.2, 20.1, 12.3, 23.4, 24.2],
"humedad_pct": [72, 65, 80, 90, 68, 80, 70, 65],
"velocidad_viento_kmh": [12.4, 8.1, 5.0, 20.3, 10.7, 12.2, 31.4, 5.2],
"lluvia_mm": [0.0, 1.2, 0.0, 12.5, 0.8, 1.6, 7.8, 12.3],
"sensor_activo": [True, True, False, True, True, True, True, False]
}

df = pd.DataFrame(data)
df

DataFrame resultante:

estacion_idregiontemperatura_chumedad_pctvelocidad_viento_kmhlluvia_mmsensor_activo
0EST-01Norte18.57212.40.0True
1EST-02Norte21.0658.11.2True
2EST-03Centro19.8805.00.0False
3EST-04Sur16.29020.312.5True
4EST-05Centro20.16810.70.8True
5EST-06Centro12.38012.21.6True
6EST-07Sur23.47031.47.8True
7EST-08Centro24.2655.212.3False

Exploración de DataFrames

Explorar un DataFrame es el primer paso obligatorio antes de analizar o limpiar datos.

A continuación veremos las funciones básicas para la exploración previa.

Muestra las primeras filas del DataFrame (por defecto 5). Es útil para echar un primer vistazo a la estructura sin tener que cargar todas las filas (muy importante si los datos tienen cientos de filas).

df.head()

Resultado:

estacion_idregiontemperatura_chumedad_pctvelocidad_viento_kmhlluvia_mmsensor_activo
0EST-01Norte18.57212.40.0True
1EST-02Norte21.0658.11.2True
2EST-03Centro19.8805.00.0False
3EST-04Sur16.29020.312.5True
4EST-05Centro20.16810.70.8True

Se puede especificar en el head() el número de filas a mostrar.

df.head(2)

Resultado:

estacion_idregiontemperatura_chumedad_pctvelocidad_viento_kmhlluvia_mmsensor_activo
0EST-01Norte18.57212.40.0True
1EST-02Norte21.0658.11.2True

tail()

Muestra las últimas filas del DataFrame (por defecto 5). Al igual que al head(), le podemos especificar el número de filas.

df.tail(3)

Resultado:

estacion_idregiontemperatura_chumedad_pctvelocidad_viento_kmhlluvia_mmsensor_activo
5EST-06Centro12.38012.21.6True
6EST-07Sur23.47031.47.8True
7EST-08Centro24.2655.212.3False

shape()

Devuelve una tupla con las dimensiones del dataframe (filas, columnas).