Pandas (software)
Pandas es una librería de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el Excel de Python. Es un software libre distribuido bajo la licencia BSD.[1] El nombre deriva del término "datos de panel", término de econometría que designa datos que combinan una dimensión temporal con otra dimensión transversal.[2]
Pandas | ||
---|---|---|
Información general | ||
Tipo de programa | biblioteca de Python | |
Autor | Wes McKinney | |
Desarrollador | Comunidad | |
Modelo de desarrollo | Software libre | |
Lanzamiento inicial | 11 de enero de 2008 | |
Licencia | Licencia BSD | |
Información técnica | ||
Programado en | Python | |
Versiones | ||
Última versión estable | 1.5.0 / 19 de septiembre de 2022 () | |
Enlaces | ||
Características de la biblioteca
- Tipo de datos DataFrame para manipulación de datos con indexación integrada.
- Herramientas para leer y escribir datos entre estructuras de dato en-memoria y formatos de archivo variados.
- Alineación de dato y manejo integrado de datos faltantes.
- Reestructuración y segmentación de conjuntos de datos.
- Segmentación vertical basada en etiquetas, indexación elegante, y segmentación horizontal de grandes conjuntos de datos.
- Inserción y eliminación de columnas en estructuras de datos.
- Agrupación predefinida en la biblioteca lo que permite realizar cadenas de operaciones dividir-aplicar-combinar sobre conjuntos de datos.
- Mezcla y unión de datos.
- Indexación jerárquica de ejes para trabajar con datos de altas dimensiones en estructuras de datos de menor dimensión.
- Funcionalidad de series de tiempo: generación de rangos de fechas y conversión de frecuencias, desplazamiento de ventanas estadísticas y de regresiones lineales, desplazamiento de fechas y retrasos.[3]
La biblioteca ha sido altamente optimizada en cuanto a rendimiento, con caminos de código crítico escritos en Cython o en C.[4]
Historia
Su principal desarrollador, Wes McKinney, empezó a desarrollar Pandas en el año 2008 mientras trabajaba en AQR Capital por la necesidad que tenía de una herramienta flexible de alto rendimiento para realizar análisis cuantitativo en datos financieros.[5] Antes de dejar AQR convenció a la administración de la empresa de distribuir esta biblioteca bajo licencia de código abierto. Otro empleado de AQR, Chang Ella, se unió en 2012 al esfuerzo de desarrollo de la biblioteca.[cita requerida]
Línea del tiempo:[6]
- 2008: Comienza el desarrollo de pandas
- 2009: Pandas se convierte en un software de código abierto
- 2012: Es publicada la primera edición de Python for Data Analysis
- 2015: pandas se convierte en un proyecto esponsorizado por NumFOCUS
- 2018: Primer sprint presencial de desarrolladores del núcleo
Ejemplos
Curvas
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()
Gráfica de barras
df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()
Diagrama de caja
df = pd.DataFrame(np.random.rand(7, 5), columns=list('ABCDE'))
df.plot.box()
plt.show()
Histograma
data = pd.Series(np.random.normal(size=100))
data.hist(grid=False)
plt.show()
Véase también
Referencias
- «License – Package overview – pandas 0.21.1 documentation». pandas. 12 de diciembre de 2017. Consultado el 13 de diciembre de 2017.
- Using Econometrics: A Practical Guide. Pearson. 2016. pp. 346, 465. ISBN 013418274X.
- «pandas.date_range – pandas 0.21.1 documentation». pandas. 12 de diciembre de 2017. Consultado el 13 de diciembre de 2017.
- «Python Data Analysis Library – pandas: Python Data Analysis Library». pandas. Consultado el 13 de noviembre de 2017.
- Matt Harrison, Theodore Petrou (2020). Pandas CookBook. Packt. ISBN 978-1839213106.
- «pandas - Python Data Analysis Library». pandas.pydata.org. Consultado el 29 de septiembre de 2021.