logo

Data-analyse en visualisatie met Python

Python wordt veel gebruikt als data-analysetaal vanwege de robuuste bibliotheken en tools voor het beheren van gegevens. Een van deze bibliotheken is Pandas, wat de manipulatie en analyse van gegevensverkenning eenvoudiger maakt. wij zullen gebruiken  Panda's  om een ​​dataset te analyseren genaamd  Landgegevens.csv  van Kaggle. Terwijl we met deze gegevens werken, introduceren we ook enkele belangrijke concepten in Pandas.

1. Installatie

De eenvoudigste manier om panda's te installeren is door pip te gebruiken:

Python
pip install pandas 


of Download het van  hier .



2. Een dataframe maken in Panda's

Gegevensframe  is een tabelachtige gegevensstructuur in Pandas waarin gegevens zijn opgeslagen in rijen en kolommen. Een DataFrame kan worden gemaakt door meerdere Python Series-objecten door te geven aan de DataFrame klas ( pd.DataFrame() ) met behulp van de  pd.Series  methode. In dit voorbeeld worden twee Series-objecten gebruikt: s1 als de eerste rij en s2 als de tweede rij.

Voorbeeld 1: DataFrame maken uit series:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Uitgang:

Data-analyse en visualisatie met Python' title=

Voorbeeld 2: DataFrame uit een lijst met aangepaste index- en kolomnamen:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

Voorbeeld 3: DataFrame uit een woordenboek:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

3. Gegevens importeren met Panda's

De eerste stap is het lezen van de gegevens. In ons geval worden de gegevens opgeslagen als een CSV-bestand (Comma-Separated Values), waarbij elke rij wordt gescheiden door een nieuwe regel en elke kolom door een komma. Om met de data in Python te kunnen werken is het nodig om de csv te lezen  bestand  in een Pandas DataFrame.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Uitgang:

hoofd' loading='lazy' title=
(167 10)

4. DataFrames indexeren met Panda's

Pandas biedt krachtige indexeringsmogelijkheden. U kunt DataFrames met beide indexeren op positie gebaseerd En op etiket gebaseerd methoden.

Positiegebaseerde indexering (met behulp van iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title= Data-analyse en visualisatie met Python' loading='lazy' title= Data-analyse en visualisatie met Python' loading='lazy' title=

Op labels gebaseerde indexering (met behulp van loc ):

U kunt indexeren met labels met behulp van de  pandas.DataFrame.loc  methode die het mogelijk maakt om te indexeren met behulp van labels in plaats van posities.

Voorbeelden:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title= Data-analyse en visualisatie met Python' loading='lazy' title=


Het bovenstaande ziet er eigenlijk niet veel anders uit dan df.iloc[0:5:]. Dit komt omdat, hoewel rijlabels elke waarde kunnen aannemen, onze rijlabels exact overeenkomen met de posities. Maar kolomlabels kunnen het werken met gegevens veel eenvoudiger maken.

Voorbeeld:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

5. DataFrame-wiskunde met panda's

Pandas maakt het eenvoudiger om wiskundige bewerkingen uit te voeren op de gegevens die zijn opgeslagen in dataframes. De bewerkingen die op panda's kunnen worden uitgevoerd, zijn gevectoriseerd, wat betekent dat ze snel zijn en automatisch op alle elementen worden toegepast, zonder gebruik te maken van lussen.

Voorbeeld - Wiskunde in kolommen:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

Statistische functies in panda’s:

8 naar 1 multiplexer

Berekening van dataframes kan worden gedaan met behulp van statistische functies van panda-tools. We kunnen functies gebruiken zoals:

  • df.sum() → som van waarden
  • df.mean() → gemiddeld
  • df.max() / df.min() → maximale en minimale waarden
  • df.describe() → snelle samenvatting van statistieken
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title= Data-analyse en visualisatie met Python' loading='lazy' title=

6. Gegevensvisualisatie met Panda's en Matplotlib

Panda's is heel gemakkelijk te gebruiken  Matplotlib een krachtige bibliotheek die wordt gebruikt voor het maken van basisplots en grafieken. Met slechts een paar regels code kunnen we onze gegevens visualiseren en beter begrijpen. Hieronder staan ​​enkele eenvoudige voorbeelden om u op weg te helpen met plotten met Pandas en Matplotlib:

Python
# Import the library first import matplotlib.pyplot as plt 

Histogram

Een histogram toont de verdeling van waarden in een kolom.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

Boxplot

boxplot  is nuttig om uitschieters te detecteren en de gegevensspreiding te begrijpen.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

Verspreidingsdiagram

spreidingsdiagram  toont de relatie tussen twee variabelen.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Uitgang:

Data-analyse en visualisatie met Python' loading='lazy' title=

Gerelateerd artikel:

  • Panda's Introductie
  • Grafieken plotten in Python
  • Werken met csv-bestanden in Python
  • Panda's DataFrame
  • Inleiding tot Matplotlib
  • Histogram - Definitietypen Grafiek en voorbeelden
  • Boxplot
  • Verspreidingsdiagram


Quiz maken