Tutorial de pandas en Python

En esta lección sobre la biblioteca Python Pandas, veremos diferentes estructuras de datos que este paquete de Python proporciona para funcionalidades de procesamiento rápido de datos que son eficientes para datos dinámicos y para administrar operaciones complejas sobre datos multidimensionales. En esta lección, cubriremos principalmente:

¿Qué es el paquete Pandas?
Instalación y puesta en marcha
Carga de datos de CSV en Pandas DataFrame
¿Qué es DataFrame y cómo funciona?
Cortar DataFrames
Operaciones matemáticas sobre DataFrame

Esto parece mucho que cubrir. Comencemos ahora.

¿Qué es el paquete Python Pandas??

Según la página de inicio de Pandas: pandas es una biblioteca de código abierto con licencia BSD que proporciona estructuras de datos de alto rendimiento y fáciles de usar y herramientas de análisis de datos para el lenguaje de programación Python.

Una de las mejores cosas de Pandas es que permite leer datos de formatos de datos comunes como CSV, SQL, etc. muy fácil, lo que lo hace igualmente utilizable en aplicaciones de grado de producción o simplemente en algunas aplicaciones de demostración.

Instalar Python Pandas

Solo una nota antes de comenzar el proceso de instalación, usamos un entorno virtual para esta lección que hicimos con el siguiente comando:

Python -m virtualenv pandas
pandas fuente / bin / activar

Una vez que el entorno virtual está activo, podemos instalar la biblioteca pandas dentro del entorno virtual para que se puedan ejecutar los ejemplos que creamos a continuación:

pip instalar pandas

O podemos usar Conda para instalar este paquete con el siguiente comando:

conda instalar pandas

Vemos algo como esto cuando ejecutamos el comando anterior:

Una vez que la instalación se complete con Conda, podremos usar el paquete en nuestros scripts de Python como:

importar pandas como pd

Comencemos a usar Pandas en nuestros scripts ahora.

Lectura de archivos CSV con Pandas DataFrames

Leer un archivo CSV es fácil con Pandas. Para la demostración, hemos construido un pequeño archivo CSV con el siguiente contenido:

Nombre, número de rollo, fecha de admisión, contacto de emergencia
Shubham, 1,20-05-2012,9988776655
Gagan, 2,20-05-2009,8364517829
Oshima, 3,20-05-2003,5454223344
Vyom, 4,20-05-2009,1223344556
Ankur, 5,20-05-1999,9988776655
Vinod, 6,20-05-1999,9988776655
Vipin, 7,20-05-2002,9988776655
Ronak, 8,20-05-2007,1223344556
DJ, 9,20-05-2014,9988776655
VJ, 10,20-05-2015,9988776655

Guarde este archivo en el mismo directorio que el de la secuencia de comandos de Python. Una vez que el archivo esté presente, agregue el siguiente fragmento de código en un archivo de Python:

importar pandas como pd
estudiantes = pd.read_csv ("estudiantes.csv ")
estudiantes.cabeza()

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

La función head () en Pandas se puede usar para mostrar una muestra de datos presentes en el DataFrame. Espera, DataFrame? Estudiaremos mucho más sobre DataFrame en la siguiente sección, pero entendemos que un DataFrame es una estructura de datos n-dimensional que se puede usar para mantener y analizar operaciones complejas sobre un conjunto de datos.

También podemos ver cuántas filas y columnas tienen los datos actuales:

estudiantes.forma

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Tenga en cuenta que los pandas también cuentan el número de filas a partir de 0.

Es posible obtener solo una columna en una lista con Pandas. Esto se puede hacer con la ayuda de indexación en pandas. Veamos un fragmento de código corto para el mismo:

nombre_estudiante = estudiantes ['Nombre']
estudiantes_nombres

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Pero eso no parece una lista, ¿verdad?? Bueno, necesitamos llamar explícitamente a una función para convertir este objeto en una lista:

estudiantes_nombres = estudiantes_nombres.Listar()
estudiantes_nombres

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Solo para obtener información adicional, podemos asegurarnos de que cada elemento de la lista sea único y solo seleccionamos elementos no vacíos agregando algunas verificaciones simples como:

estudiantes_nombres = estudiantes ['Nombre'].dropna ().único().Listar()

En nuestro caso, la salida no cambiará ya que la lista ya no contiene ningún valor incorrecto.

También podemos crear un DataFrame con datos sin procesar y pasar los nombres de las columnas junto con él, como se muestra en el siguiente fragmento de código:

my_data = pd.Marco de datos(
[
[1, "Chan"],
[2, "Smith"],
[3, "Winslet"]
],
columnas = ["Clasificación", "Apellido"]
)
mis datos

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Cortar DataFrames

Desglosar DataFrames para extraer solo las filas y columnas seleccionadas es una funcionalidad importante para mantener la atención en las partes requeridas de los datos que necesitamos usar. Para esto, Pandas nos permite cortar DataFrame como y cuando sea necesario con declaraciones como:

iloc [: 4 ,:]: selecciona las primeras 4 filas y todas las columnas para esas filas.
iloc [:,:] - se selecciona el DataFrame completo
iloc [5:, 5:] - filas desde la posición 5 en adelante y columnas desde la posición 5 en adelante.
iloc [:, 0]: la primera columna y todas las filas de la columna.
iloc [9 ,:]: la décima fila y todas las columnas de esa fila.

En la sección anterior, ya hemos visto indexación y división con nombres de columna en lugar de índices. También es posible mezclar el corte con números de índice y nombres de columna. Veamos un fragmento de código simple:

estudiantes.loc [: 5, 'Nombre']

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Es posible especificar más de una columna:

estudiantes.loc [: 5, ['Nombre', 'Contacto de emergencia']]

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Estructura de datos de series en Pandas

Al igual que Pandas (que es una estructura de datos multidimensional), una serie es una estructura de datos de una dimensión en Pandas. Cuando recuperamos una sola columna de un DataFrame, en realidad estamos trabajando con una Serie:

tipo (estudiantes ["Nombre"])

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

También podemos construir nuestra propia serie, aquí hay un fragmento de código para la misma:

serie = pd.Serie (['Shubham', 3.7])
serie

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Como se desprende del ejemplo anterior, una serie también puede contener varios tipos de datos para la misma columna.

Filtros booleanos en Pandas DataFrame

Una de las cosas buenas de Pandas es cómo es extraer datos de un DataFrame en función de una condición. Como extraer estudiantes solo cuando el número de rollo es mayor que 6:

roll_filter = estudiantes ['RollNo']> 6
roll_filter

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Bueno, eso no es lo que esperábamos. Aunque la salida es bastante explícita sobre qué filas satisfacen el filtro que proporcionamos, todavía no tenemos las filas exactas que satisfacen ese filtro. Resulta que podemos usar filtros como índices de DataFrame también:

estudiantes [roll_filter]

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Es posible utilizar varias condiciones en un filtro para que los datos se puedan filtrar en un filtro conciso, como:

next_filter = (estudiantes ['RollNo']> 6) & (estudiantes ['Nombre']> 'S')
estudiantes [next_filter]

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Calcular la mediana

En un DataFrame, también podemos calcular muchas funciones matemáticas. Daremos un buen ejemplo de cómo calcular la mediana. La mediana se calculará para una fecha, no solo para números. Veamos un fragmento de código corto para el mismo:

fechas = estudiantes ['Fecha de admisión'].astype ('datetime64 [ns]').cuantil.5)
fechas

Una vez que ejecutemos el fragmento de código anterior, veremos el siguiente resultado:

Logramos esto indexando primero la columna de fecha que tenemos y luego proporcionando un tipo de datos a la columna para que Pandas pueda inferirlo correctamente cuando aplica la función de cuantiles para calcular la fecha mediana.

Conclusión

En esta lección, analizamos varios aspectos de la biblioteca de procesamiento de Pandas que podemos usar con Python para recopilar datos de varias fuentes en una estructura de datos DataFrame que nos permite operar de manera sofisticada en un conjunto de datos. También nos permite obtener un subconjunto de datos en los que queremos trabajar momentáneamente y proporciona muchas operaciones matemáticas.

Comparta sus comentarios sobre la lección en Twitter con @sbmaggarwal y @LinuxHint.