Módulos Útiles - Taller de Introducción a Machine Learning

Updated: 20 feb 2026

Métodos comunes de Numpy¶

Aquí veremos funciones que se usarán constantemente antes de hacer Machine Learning.

Crear arreglos¶

import numpy as np

a = np.array([1,2,3,4,5])
print(a)

Generar Secuencia de Valores¶

valores = np.linspace(0,10,5)   # 5 números entre 0 y 10
secuencia = np.arange(0,10,2)     # de 2 en 2

print(valores)
print(secuencia)

Operaciones estadísticas básicas¶

datos = np.array([23,25,24,26,28])

print("Promedio", datos.mean()) #  calcula el promedio aritmético (la media) de los elementos
print("Desviación Estandar", datos.std()) # calcular la desviación estándar de un conjunto de datos
print("Mínimo", datos.min()) # encuentra el valor mínimo en un array
print("Maximo", datos.max()) # encuentra el valor máximo en un array

Operaciones matemáticas vectorizadas¶

x = np.linspace(0,5,5)

print(x**2)
print(np.sqrt(x))
print(np.log(x+1))

Exercise 1

Predice el resultado

import numpy as np
a = np.array([1,2,3])
print(a + 1)

A. Error
B. [2,3,4]
C. [1,2,3,1]
D. 2

Ver solución

Respuesta: B

NumPy aplica la operación a cada elemento automáticamente. Esto se llama vectorización.

Métodos comunes de Pandas¶

Con la libreria pandas podemos leer un documento en formato csv

import pandas as pd

df = pd.read_csv("datos.csv")

como también podemos crear nuestra propia data usando el método DataFrame

import pandas as pd

df = pd.DataFrame({
    "estrella":["Sol","Alfa Centauri A","Sirius"],
    "masa":[1, 1.1, 2.02],
    "distancia":[0.000016, 4.39, 8.6]
})

Inspeccionar Datos¶

df.head() # muestra las primeras filas del DataFrame
df.info() # muestra resumen de la información sobre el DataFrame
df.describe() # muestra estadísticas descriptivas de las columnas del DataFrame

También podemos obtener el máximo, mínimo, y promedio de ciertas columnas en específico.

df["masa"].mean()
df["distancia"].max()
df["masa"].min()

Para crear nuevas columnas

df["radio"] = 3,958.8* (df["masa"] / 1)**0.8

Métodos Comunes de Matplotlib¶

Matplotlib es la librería base para hacer gráficas en Python. Es poderosa y muy flexible (pero más manual que seaborn).

Crear figura¶

plt.figure(figsize=(6,4))

Línea¶

plt.plot(x, y)

Puntos (scatter)¶

plt.scatter(x, y)

Histograma¶

plt.hist(datos, bins=20)

Etiquetas¶

plt.xlabel("Edad")
plt.ylabel("Altura")
plt.title("Relación Edad vs Altura")

Leyenda¶

plt.legend()

Mostrar gráfica¶

plt.show()

Ejemplo¶

import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0,10,50)
y = np.sin(x)

plt.plot(x,y)
plt.title("Onda seno")
plt.xlabel("x")
plt.ylabel("sin(x)")
plt.show()

Métodos comunes de Seaborn¶

Seaborn es una librería basada en Matplotlib pero especializada en análisis de datos.

En ciencia de datos real, se usa seaborn el 90% del tiempo.

Histograma inteligente¶

sns.histplot(data=df, x="edad")

Relación entre variables¶

sns.scatterplot(data=df, x="altura", y="peso")

Boxplot¶

sns.boxplot(data=df, x="genero", y="salario")

Conteo de categorías¶

sns.countplot(data=df, x="clase")

Correlaciones¶

sns.heatmap(df.corr(), annot=True)

Ejemplo¶

import seaborn as sns
import pandas as pd

df = sns.load_dataset("tips")

sns.scatterplot(data=df, x="total_bill", y="tip", hue="sex")

Ahora tu turno

Analizando una señal astronómica

Un telescopio midió el brillo relativo de una estrella a lo largo del tiempo. Las estrellas variables cambian su brillo periódicamente debido a pulsaciones físicas.

Tu trabajo será comportarte como un científico: cargar datos → analizarlos → descubrir el patrón.

1) Crear el tiempo de observación¶

Crea un arreglo de tiempo de 0 a 10 horas con 200 mediciones:

Pista

Crea una variable llamada tiempo y utiliza el método de numpy, linspace.

import numpy as np

tiempo = np.linspace(0,10,200)

2) Simular el brillo observado¶

El brillo de la estrella sigue aproximadamente una señal sinusoidal (una oscilación física real) más ruido instrumental. Agrega el brillo observado ()

ruido = np.random.normal(0,0.2,200)
brillo = 2 + np.sin(2*np.pi*tiempo/3) + ruido

brillo[:10]

3) Estadísticas científicas¶

Calcula:

brillo promedio
brillo máximo
desviación estándar (variabilidad de la estrella)

Pista

print("Promedio:", brillo.mean())
print("Maximo:", brillo.max())
print("Desviacion:", brillo.std())

La desviación estándar mide qué tan variable es la estrella.

4) Encontrar momentos más brillantes¶

Encuentra el índice donde la estrella fue más brillante:

indice_max = np.argmax(brillo)
print(tiempo[indice_max], brillo[indice_max])

Ese fue el momento del máximo de luminosidad

5) Graficar la observación¶

import matplotlib.pyplot as plt

plt.plot(tiempo, brillo)
plt.xlabel("Tiempo (horas)")
plt.ylabel("Brillo relativo")
plt.title("Curva de luz de estrella variable")
plt.show()

4 Módulos Útiles

Métodos comunes de Numpy¶

Crear arreglos¶

Generar Secuencia de Valores¶

Operaciones estadísticas básicas¶

Operaciones matemáticas vectorizadas¶

Métodos comunes de Pandas¶

Inspeccionar Datos¶

Métodos Comunes de Matplotlib¶

Crear figura¶

Línea¶

Puntos (scatter)¶

Histograma¶

Etiquetas¶

Leyenda¶

Mostrar gráfica¶

Ejemplo¶

Métodos comunes de Seaborn¶

Histograma inteligente¶

Relación entre variables¶

Boxplot¶

Conteo de categorías¶

Correlaciones¶

Ejemplo¶