Páginas

viernes, 24 de noviembre de 2023

¿Qué es Pandas?

 Ahora vamos aprender ¿Qué es Pandas? y ¿Cuál es su funcionalidad?

Pandas es una biblioteca de Python muy popular y poderosa para el análisis y manipulación de datos. Es una herramienta esencial para cualquier persona interesada en la ciencia de datos, estadísticas, o simplemente en trabajar con grandes conjuntos de datos de una manera eficiente. A continuación, te describe paso a paso qué es Pandas, su funcionalidad y cómo puedes aprender a utilizarlo de manera óptima:

¿Qué es Pandas?

  1. Biblioteca de Python : Pandas es una biblioteca de código abierto que se utiliza en el lenguaje de programación Python. Se integra bien con otras bibliotecas de Python utilizadas para el análisis de datos, como NumPy, SciPy y Matplotlib.

  2. Especializada en Datos : Está especialmente diseñada para la manipulación y análisis de datos estructurados (como tablas).

  3. Estructuras de Datos Principales : Ofrece dos estructuras de datos principales- DataFrame y Series.

    • DataFrame : Es como una tabla en Excel, con filas y columnas. Cada columna puede ser de un tipo de dato diferente (números, cadenas, fechas, etc.).
    • Ejemplo de Aplicación en JupyterLite el uso de DataFrame:
    • import pandas as pd misdatos = { 'meses':["enero", "febrero", "marzo", "abril"], 'dias' :[31, 28, 31, 30] } resultados=pd.DataFrame(misdatos) print (resultados)
    • #Despues de ejecutar el código te va salir el siguiente resultado
    •       meses     dias
      0    enero       31
      1    febrero    28
      2    marzo      31
      3    abril         30
    • Series : Es como una sola columna de un DataFrame, o como una lista de datos con índices.
    • Ejemplo de Aplicación en JupyterLite el uso de las Series:
    • import pandas as pd dias = [31,28,31,30] meses = pd.Series(dias, index = ["enero", "febrero", "marzo", "abril"]) print(meses)
  4. #Despues de ejecutar el código te va salir el siguiente resultado
  5. enero        31
    febrero 28
    marzo 31
    abril 30

Ejemplo de índices y series:

Se puede utilizar los índices para obtener información especifica de una lista de etiquetas. En el siguiente código podemos preguntar exclusivamente por las ganancias de los últimos tres meses del año. Veamos el código ejecutado en JupyterLite o Google Colaboraty.
Ejemplo 1.
import pandas as pd

ganancia = {"Septiembre":20000,"Octubre": 25000, "Noviembre": 35000, "Diciembre": 50000}

misganancias=pd.Series(ganancia, index=["Octubre","Noviembre","Diciembre"])


print(misganancias)

          #Despues de ejecutar el código te va salir el siguiente resultado

              Octubre           25000

              Noviembre      35000

             Diciembre       50000            

Ejemplo 2. Programa que puedes ejecutar en JupyterLite, o Google Colaboraty y te hace la gráfica y la sumatoria de ganancias totales por meses.

import pandas as pd

from io import StringIO # Datos de ejemplo en formato CSV datos_csv = """ fecha,ganancias 2023-01-15,100 2023-01-20,200 2023-02-10,150 2023-02-20,250 2023-03-05,300 2023-03-20,350 """ # Usamos StringIO para simular un archivo datos = StringIO(datos_csv) # Creamos un DataFrame con los datos df = pd.read_csv(datos, parse_dates=['fecha']) # Agrupamos los datos por mes y sumamos las ganancias df['mes'] = df['fecha'].dt.to_period('M') ganancias_por_mes = df.groupby('mes')['ganancias'].sum() print(ganancias_por_mes)

# Mostrando el Resultado de ejecutar el programa

mes
2023-01    300
2023-02    400
2023-03    650

# Código que muestra la gráfica

import pandas as pd import matplotlib.pyplot as plt from io import StringIO # Datos de ejemplo en formato CSV datos_csv = """ fecha,ganancias 2023-01-15,100 2023-01-20,200 2023-02-10,150 2023-02-20,250 2023-03-05,300 2023-03-20,350 """ # Usamos StringIO para simular un archivo datos = StringIO(datos_csv) # Creamos un DataFrame con los datos df = pd.read_csv(datos, parse_dates=['fecha']) # Agrupamos los datos por mes y sumamos las ganancias df['mes'] = df['fecha'].dt.to_period('M') ganancias_por_mes = df.groupby('mes')['ganancias'].sum() # Crear una gráfica plt.figure(figsize=(10, 6)) ganancias_por_mes.plot(kind='bar') plt.title('Ganancias Totales por Mes') plt.xlabel('Mes') plt.ylabel('Ganancias') plt.xticks(rotation=45) plt.show()

#Resultado de Ejecutar el código

Funcionalidad de Pandas

  1. Manejo de Datos : Permite leer y escribir datos en diferentes formatos como CSV, Excel, bases de datos SQL, y JSON.

  2. Limpieza de Datos : Facilita la limpieza de datos, permitiendo eliminar o reemplazar datos faltantes, filtrar datos y realizar transformaciones.

  3. Análisis de datos : Proporciona herramientas para el análisis rápido de datos, como la agrupación (group by), fusión y combinación de datos, y la creación de tablas pivote.

  4. Manipulación de Datos : Permite realizar operaciones sobre los datos, como agregar, eliminar o modificar columnas y filas.

  5. Visualización de datos : Se integra con Matplotlib para permitir la visualización de datos directamente desde las estructuras de datos de Pandas.

aprender pandas

  1. Fundamentos de Python : Antes de aprender Pandas, es importante tener una comprensión básica de Python.

  2. Recursos en Línea : Hay muchos tutoriales en línea gratuitos, blogs y videos que enseñan Pandas. Sitios como Coursera, Udemy o Khan Academy ofrecen cursos sobre Pandas y análisis de datos.

  3. Documentación Oficial : La documentación de Pandas es un recurso excelente para aprender y resolver dudas específicas.

  4. Proyectos Prácticos : La mejor manera de aprender es aplicando lo que sabes en proyectos reales. Trabajar con conjuntos de datos y tratar de resolver problemas específicos.

  5. Comunidad y Foros : Participar en comunidades en línea como Stack Overflow, Reddit o grupos de LinkedIn puede ser muy útil para resolver dudas y aprender de las experiencias de otros.

  6. Libros y Textos Académicos : Hay muchos libros que abordan Pandas desde un enfoque más estructurado y profundo, ideales para quienes prefieren el aprendizaje a través de la lectura.

Conclusión

Pandas es una herramienta esencial en el campo del análisis de datos y la ciencia de datos. Aprender a usarla eficientemente te abrirá muchas puertas en el análisis y manipulación de datos, y la buena noticia es que hay una amplia variedad de recursos disponibles para aprenderla. La práctica continua y el trabajo con proyectos reales es la clave para dominar Pandas.

No hay comentarios:

Publicar un comentario