HAAL UNIEKE WAARDEN OP UIT EEN KOLOM IN PANDAS DATAFRAME

De functie unique() verwijdert alle dubbele waarden in een kolom en retourneert één waarde voor meerdere dezelfde waarden. In dit artikel bespreken we hoe we unieke waarden uit een kolom kunnen halen Panda's DataFrame .

Een Pandas-dataframe maken met dubbele elementen

Maak een voorbeeld van een Pandas-dataframe met een woordenboek van lijsten, bijvoorbeeld kolomnamen A, B, C, D en E met dubbele elementen.

Python3

# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data>=> {> >'A'>: [>'A1'>,>'A2'>,>'A3'>,>'A4'>,>'A5'>],> >'B'>: [>'B1'>,>'B2'>,>'B3'>,>'B4'>,>'B4'>],> >'C'>: [>'C1'>,>'C2'>,>'C3'>,>'C3'>,>'C3'>],> >'D'>: [>'D1'>,>'D2'>,>'D2'>,>'D2'>,>'D2'>],> >'E'>: [>'E1'>,>'E1'>,>'E1'>,>'E1'>,>'E1'>]}> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)>

Hieronder staan enkele voorbeelden waarmee we de unieke waarden van een kolom in dit dataframe kunnen verkrijgen.

Verkrijg de unieke waarden van kolom ‘B’
Verkrijg de unieke waarden van de ‘E’-kolom
Krijg het aantal unieke waarden in een kolom
Set() gebruiken om dubbele waarden uit een kolom te verwijderen
De methoden pandas.concat() en Unique() gebruiken
Series.drop_duplicates() gebruiken

Verkrijg de unieke waarden van kolom ‘B’

In dit voorbeeld halen we de unieke waarden uit de ‘B’-kolom op en drukken we deze af met behulp van de unique()> methode. De resulterende unieke waarden zijn['B1', 'B2', 'B3', 'B4']>.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

Uitvoer

verschil tussen een tijger en een leeuw

array(['B1', 'B2', 'B3', 'B4'], dtype=object)>

Verkrijg de unieke waarden van panda's in de 'E'-kolom

In dit voorbeeld maken we een panda's DataFrame op basis van een woordenboek en halen vervolgens de unieke waarden op uit de kolom 'E' met behulp van deunique()>methode. De resulterende unieke waarden zijn['E1']>.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

Uitvoer

array(['E1'], dtype=object)>

Krijg het aantal unieke waarden in een kolom

In dit voorbeeld maken we een Panda DataFrame op basis van een woordenboek en berekenen en drukken vervolgens het aantal unieke waarden in de ‘C’-kolom af, exclusief NaN-waarden. Het resultaat is 3, wat aangeeft dat er drie unieke waarden zijn in kolom ‘C’.

Python3

java-typevariabele

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna>=>True>)>

Uitvoer

3>

Elimineer dubbele waarden uit een kolom met set()

In dit voorbeeld maken we een pandas DataFrame op basis van een woordenboek en gebruiken we vervolgens de set()>functie om unieke waarden uit kolom ‘C’ te extraheren, waardoor duplicaten worden geëlimineerd. De resulterende set,{'C1', 'C2', 'C3'}>, vertegenwoordigt de unieke waarden in kolom ‘C’.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set>=> set>(df[>'C'>])> # Print the unique values> print>(unique_values_set)>

Uitvoer

{'C1', 'C2', 'C3'}>

De methoden pandas.concat() en Unique() gebruiken

In dit voorbeeld maken we een pandas DataFrame op basis van een woordenboek en voegen vervolgens unieke waarden uit alle kolommen samen met behulp van pd.concat()> . De resulterende NumPy-array geeft, wanneer deze wordt afgedrukt, alle unieke waarden weer van de kolommen ‘A’ tot ‘E’.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns>=> pd.concat([df[col].unique()>for> col>in> df.columns])> # Print the unique values> print>(unique_values_all_columns)>

Uitvoer

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1']>

Series.drop_duplicates() gebruiken

In dit voorbeeld maken we een panda's DataFrame uit een woordenboek en verwijderen we duplicaten uit de kolommen 'A' en 'D' met behulp van de drop_duplicates()>methode . Het resulterende DataFrame geeft, wanneer het wordt afgedrukt, de unieke waarden weer in de kolommen ‘A’ en ‘D’, met NaN-waarden waarbij duplicaten uit ‘D’ zijn verwijderd.

Python3

de mooiste glimlach ter wereld

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[>'A'>]>=> df[>'A'>].drop_duplicates()> df[>'D'>]>=> df[>'D'>].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print>(df)>

Uitvoer

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1>