De functie unique() verwijdert alle dubbele waarden in een kolom en retourneert één waarde voor meerdere dezelfde waarden. In dit artikel bespreken we hoe we unieke waarden uit een kolom kunnen halen Panda's DataFrame .
Een Pandas-dataframe maken met dubbele elementen
Maak een voorbeeld van een Pandas-dataframe met een woordenboek van lijsten, bijvoorbeeld kolomnamen A, B, C, D en E met dubbele elementen.
Python3
# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data>=> {> >'A'>: [>'A1'>,>'A2'>,>'A3'>,>'A4'>,>'A5'>],> >'B'>: [>'B1'>,>'B2'>,>'B3'>,>'B4'>,>'B4'>],> >'C'>: [>'C1'>,>'C2'>,>'C3'>,>'C3'>,>'C3'>],> >'D'>: [>'D1'>,>'D2'>,>'D2'>,>'D2'>,>'D2'>],> >'E'>: [>'E1'>,>'E1'>,>'E1'>,>'E1'>,>'E1'>]}> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> |
>
>

Haal unieke waarden op uit een kolom in Pandas DataFrame
Hieronder staan enkele voorbeelden waarmee we de unieke waarden van een kolom in dit dataframe kunnen verkrijgen.
- Verkrijg de unieke waarden van kolom ‘B’
- Verkrijg de unieke waarden van de ‘E’-kolom
- Krijg het aantal unieke waarden in een kolom
- Set() gebruiken om dubbele waarden uit een kolom te verwijderen
- De methoden pandas.concat() en Unique() gebruiken
- Series.drop_duplicates() gebruiken
Verkrijg de unieke waarden van kolom ‘B’
In dit voorbeeld halen we de unieke waarden uit de ‘B’-kolom op en drukken we deze af met behulp van de unique()> methode. De resulterende unieke waarden zijn['B1', 'B2', 'B3', 'B4']>.
Python3
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()> |
>
>
Uitvoer
verschil tussen een tijger en een leeuw
array(['B1', 'B2', 'B3', 'B4'], dtype=object)>
Verkrijg de unieke waarden van panda's in de 'E'-kolom
In dit voorbeeld maken we een panda's DataFrame op basis van een woordenboek en halen vervolgens de unieke waarden op uit de kolom 'E' met behulp van deunique()>methode. De resulterende unieke waarden zijn['E1']>.
Python3
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()> |
>
>
Uitvoer
array(['E1'], dtype=object)>
Krijg het aantal unieke waarden in een kolom
In dit voorbeeld maken we een Panda DataFrame op basis van een woordenboek en berekenen en drukken vervolgens het aantal unieke waarden in de ‘C’-kolom af, exclusief NaN-waarden. Het resultaat is 3, wat aangeeft dat er drie unieke waarden zijn in kolom ‘C’.
Python3
java-typevariabele
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna>=>True>)> |
>
>
Uitvoer
3>
Elimineer dubbele waarden uit een kolom met set()
In dit voorbeeld maken we een pandas DataFrame op basis van een woordenboek en gebruiken we vervolgens de set()>functie om unieke waarden uit kolom ‘C’ te extraheren, waardoor duplicaten worden geëlimineerd. De resulterende set,{'C1', 'C2', 'C3'}>, vertegenwoordigt de unieke waarden in kolom ‘C’.
Python3
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set>=> set>(df[>'C'>])> # Print the unique values> print>(unique_values_set)> |
>
>
Uitvoer
{'C1', 'C2', 'C3'}> De methoden pandas.concat() en Unique() gebruiken
In dit voorbeeld maken we een pandas DataFrame op basis van een woordenboek en voegen vervolgens unieke waarden uit alle kolommen samen met behulp van pd.concat()> . De resulterende NumPy-array geeft, wanneer deze wordt afgedrukt, alle unieke waarden weer van de kolommen ‘A’ tot ‘E’.
Python3
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns>=> pd.concat([df[col].unique()>for> col>in> df.columns])> # Print the unique values> print>(unique_values_all_columns)> |
>
>
Uitvoer
['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1']>
Series.drop_duplicates() gebruiken
In dit voorbeeld maken we een panda's DataFrame uit een woordenboek en verwijderen we duplicaten uit de kolommen 'A' en 'D' met behulp van de drop_duplicates()>methode . Het resulterende DataFrame geeft, wanneer het wordt afgedrukt, de unieke waarden weer in de kolommen ‘A’ en ‘D’, met NaN-waarden waarbij duplicaten uit ‘D’ zijn verwijderd.
Python3
de mooiste glimlach ter wereld
# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[>'A'>]>=> df[>'A'>].drop_duplicates()> df[>'D'>]>=> df[>'D'>].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print>(df)> |
>
>
Uitvoer
A B C D E 0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1>