pandas

Cómo usar Boxplot en Python

Cómo usar Boxplot en Python
Se utiliza un diagrama de caja para resumir conjuntos de datos mediante el método de diagrama de caja y bigotes. Esta función ayuda a los usuarios a comprender correctamente el resumen de datos. Los diagramas de caja pueden ser muy útiles cuando queremos saber cómo se distribuyen y difunden los datos. Se utilizan tres tipos de cuartiles en el diagrama de caja para trazar los datos. Estos valores incluyen los valores estadísticos de mediana, máxima, mínima, cuartil superior e inferior. Un diagrama de caja resume estos datos en el 25th, 50th, y 75th percentiles. Este tutorial le mostrará cómo crear diagramas de caja basados ​​en un conjunto de datos dado usando el pandas y marinero bibliotecas de Python.

Requisito previo

Si es un nuevo usuario de Python, primero tendrá que configurar el entorno para mostrar la salida del diagrama de caja. Puede utilizar cualquier intérprete de Python para ejecutar el código. En este tutorial, usaré spyder3 para ejecutar el código. Si no ha instalado el pandas y marinero bibliotecas antes, entonces debe ejecutar el siguiente comando desde la terminal para instalar estas bibliotecas:

$ pip3 instalar pandas seaborn

Parcelas de caja con pandas

La diagrama de caja () método de pandas se utiliza para generar figuras de diagrama de caja basadas en el marco de datos. Este método contiene muchos argumentos; algunos de estos argumentos se utilizan en los ejemplos siguientes. Esta parte del tutorial incluirá dos ejemplos que le mostrarán cómo crear diagramas de caja en pandas. Puede utilizar datos generados aleatoriamente en la biblioteca NumPy, o los datos de un archivo CSV, para generar un diagrama de caja en pandas.

Ejemplo 1: Diagramas de caja basados ​​en valores aleatorios

Los diagramas de caja en el siguiente ejemplo se generaron utilizando NumPy y pandas. La biblioteca NumPy se utiliza en el script para crear un objeto de marco de datos generando una matriz bidimensional de valores aleatorios que contienen 5 filas y 5 columnas. El contenido del marco de datos se imprimirá utilizando la cabeza() método. A continuación, el diagrama de caja () El método se utiliza para generar diagramas de caja con color azul, tamaño de fuente 10 y un ángulo de rotación de 30 grados para mostrar los valores de las columnas.

#!/ usr / bin / env python3
# Importar biblioteca de pandas
importar pandas como pd
# Importar la biblioteca NumPy para crear los números aleatorios para la matriz
importar numpy como np
"
Genere un conjunto de datos basado en una matriz NumPy creada aleatoriamente
y valores de cinco columnas
"
marco de datos = pd.DataFrame (np.aleatorio.randn (5,5), columnas = ['2016', '2017', '2018',
'2019', '2020'])
 
# Imprime los valores del marco de datos
imprimir (marco de datos.cabeza())
# Mostrar el diagrama de caja basado en los valores del marco de datos
marco de datos.diagrama de caja (cuadrícula = 'falso', color = 'azul', tamaño de fuente = 10, rot = 30)

Producción

La siguiente salida aparecerá después de ejecutar el código.

Ejemplo 2: diagramas de caja basados ​​en datos CSV

Los diagramas de caja en el siguiente ejemplo se generaron a partir de datos CSV. Crea un archivo CSV llamado Banco.csv utilizando los siguientes datos.

Banco.csv

SL, Client_Name, Account_Type, Sexo, Saldo
1, Maria Hernandez, Saving, Female, 120000
2, Mary Smith, actual, mujer, 40000
3, David Smith, actual, hombre, 379000
4, Maria Rodriguez, Saving, Female, 56000
5, Mark Lee, Saving, Hombre, 93500
6, Jonathan Bing, actual, hombre, 5900
7, Daniel Williams, Ahorro, Masculino, 2300
8, Mike Brown, actual, hombre, 124888
9, Paul Smith, actual, hombre, 59450
10, Maria Lopez, Saving, Female, 487600

En el siguiente guión, el matplotlib La biblioteca se utilizó para configurar el tamaño de la figura del diagrama de caja y para mostrar la salida en línea. Todos los registros de el Banco.csv archivo se cargaron usando el read_csv () método de pandas. Los primeros 8 registros del marco de datos se imprimieron luego utilizando el cabeza() método. La diagrama de caja () El método se usó en la siguiente declaración para dibujar la figura del diagrama de caja usando el color rojo basado en 'Tipo de cuenta' con la columna llamada 'Equilibrio.'

#!/ usr / bin / env python3
# Importar pandas para generar un diagrama de caja
importar pandas como pd
# Importar matplotlib para configurar el tamaño de la figura del diagrama de caja
importar matplotlib.pyplot como plt
# Importar get_ipython para formatear la salida en línea
desde IPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
# Configurar el tamaño de la figura
plt.rcParams ['figura.figsize '] = (8,4)
# Cargar el conjunto de datos desde un archivo CSV
df = pd.read_csv ("banco.csv ")
# Imprime las primeras 8 filas de los datos cargados
imprimir (df.cabeza (8))
# Mostrar los diagramas de caja según el parámetro utilizado
df.boxplot (por = 'Account_Type', grid = 'True', column = ['Balance'], color = 'red')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Parcelas de caja con seaborn

Otra biblioteca de Python que se usa comúnmente para dibujar diagramas de caja es la biblioteca marinero.  Una de las características importantes de esta biblioteca es que tiene muchos conjuntos de datos de muestra integrados para probar diferentes tareas. Los siguientes dos ejemplos cubrirán el uso de dos conjuntos de datos de muestra diferentes para dibujar diagramas de caja usando el marinero Biblioteca.

Ejemplo 3: Diagramas de caja basados ​​en el parámetro x

El siguiente ejemplo usa un conjunto de datos de muestra, llamado 'diamantes ' de el marinero biblioteca para generar el diagrama de caja. Aquí, el estilo de la cuadrícula se define mediante el set_style () método. La load_dataset () se utiliza para cargar los datos del 'diamantes conjunto de datos. Los primeros cinco registros se imprimen desde el conjunto de datos y el diagrama de caja () El método se usa luego para dibujar el diagrama de caja basado en la columna, llamada 'profundidad,'con color azul.

# Importar la biblioteca de seaborn para generar un diagrama de caja
importar seaborn como sns
# Importar matplotlib para configurar el tamaño de la figura del diagrama de caja
importar matplotlib.pyplot como plt
# Importar get_ipython para formatear la salida en línea
desde IPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
# Configura el estilo de la cuadrícula
sns.set_style ("cuadrícula blanca")
# Configurar el tamaño de la figura
plt.rcParams ['figura.figsize '] = (8,4)
# Cargar el conjunto de datos de muestra
diamond_dataset = sns.load_dataset ('diamantes')
# Mostrar los primeros 5 registros del conjunto de datos
imprimir (diamond_dataset.cabeza())
# Dibujar la figura de diagramas de caja
sns.boxplot (x = diamond_dataset ['profundidad'], color = 'azul')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Ejemplo 4: Diagramas de caja basados ​​en parámetros xey

El siguiente ejemplo usa el conjunto de datos de muestra llamado 'vuelos'para dibujar el diagrama de caja. Aquí, tanto los parámetros x como los y de el diagrama de caja () se utilizan para dibujar la figura. Las otras declaraciones son similares al ejemplo anterior.

# Importar la biblioteca de seaborn para generar un diagrama de caja
importar seaborn como sns
# Importar matplotlib para configurar el tamaño de la figura del diagrama de caja
importar matplotlib.pyplot como plt
# Importar get_ipython para formatear la salida en línea
desde IPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
 
# Configura el estilo de la cuadrícula
sns.set_style ("cuadrícula oscura")
# Configurar el tamaño de la figura
plt.rcParams ['figura.figsize '] = (12,4)
 
# Cargar el conjunto de datos de muestra
flight_dataset = sns.load_dataset ('vuelos')
# Mostrar los primeros 5 registros del conjunto de datos
print (flight_dataset.cabeza())
 
# Dibujar la figura de diagramas de caja
sns.boxplot (x = 'mes', y = 'pasajeros', data = flight_dataset, color = 'azul')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Conclusión

Cuando trabaje con una gran cantidad de datos, es posible que desee resumir los datos mediante un diagrama, como un diagrama de caja. Este tutorial usó varios ejemplos para mostrarle cómo generar diagramas de caja con dos bibliotecas de Python.

Herramientas útiles para jugadores de Linux
Si le gusta jugar juegos en Linux, es probable que haya utilizado aplicaciones y utilidades como Wine, Lutris y OBS Studio para mejorar la experiencia...
Juegos HD remasterizados para Linux que nunca tuvieron un lanzamiento de Linux antes
Muchos desarrolladores y editores de juegos están creando una remasterización HD de juegos antiguos para extender la vida útil de la franquicia, por f...
Cómo usar AutoKey para automatizar juegos de Linux
AutoKey es una utilidad de automatización de escritorio para Linux y X11, programada en Python 3, GTK y Qt. Usando su funcionalidad de scripting y MAC...