logo

Gini-index in machinaal leren

Invoering

Machine learning heeft de manier waarop we gegevens verwerken en onderzoeken hervormd, en beslisboomalgoritmen zijn een bekende beslissing voor classificatie- en regressietaken. De Gini-index, ook wel de Gini-onzuiverheid of Gini-coëfficiënt genoemd, is een belangrijke onzuiverheidsmaatstaf die wordt gebruikt in beslissingsboomalgoritmen. In dit artikel zullen we het idee van de Gini Index, de numerieke formule en de toepassingen ervan in machinaal leren uitvoerig onderzoeken. We zullen eveneens de Gini Index en andere onzuiverheidsmetingen met elkaar vergelijken, praten over de beperkingen en voordelen ervan, en contextuele analyses van de toepassingen ervan in de praktijk bekijken. Eindelijk zullen we hier de toekomstige lagers voor onderzoek laten zien.

Wat is de Gini-index?

De Gini-index is een percentage van de onzuiverheid of ongelijkheid in statistische en monetaire contexten. Bij machinaal leren wordt het gebruikt als maatstaf voor onzuiverheid in beslissingsboomalgoritmen voor classificatietaken. De Gini Index meet de waarschijnlijkheid dat een lukraak gekozen test verkeerd wordt geclassificeerd door een beslissingsboomalgoritme, en de waarde ervan gaat van 0 (perfect zuiver) tot 1 (perfect onzuiver).

Gini Index-formule

De Gini-index is een deel van de onzuiverheid of ongelijkheid van een circulatie en wordt regelmatig gebruikt als maatstaf voor onzuiverheid in beslissingsboomalgoritmen. Met betrekking tot beslissingsbomen wordt de Gini Index gebruikt om de beste eigenschap te bepalen om de gegevens op elk knooppunt van de boom te splitsen.

De formule voor Gini Index is als volgt:

Gini-index in machinaal leren

waarbij pi de waarschijnlijkheid is dat iets een plaats heeft met een specifieke klasse.

We zouden bijvoorbeeld een probleem met binaire classificatie moeten overwegen met twee klassen An en B. Als de waarschijnlijkheid van klasse An p is en de waarschijnlijkheid van klasse B (1-p), dan kan de Gini-index worden berekend als :

De waarde van de Gini Index gaat van 0,0 tot 0,5 voor binaire classificatieproblemen, waarbij 0,0 een perfect zuiver knooppunt aantoont (alle voorbeelden hebben een plaats met een vergelijkbare klasse) en 0,5 een perfect onzuiver knooppunt toont (tests zijn gelijk verdeeld over de twee klassen ).

Gini-index gebruiken bij classificatieproblemen

De Gini-index wordt over het algemeen gebruikt als onzuiverheidsmaatstaf in beslissingsboomalgoritmen voor classificatieproblemen. In beslissingsbomen adresseert elk knooppunt een element, en het doel is om de gegevens op te splitsen in subsets die in wezen zo puur zijn als zou kunnen worden verwacht. De onzuiverheidsmaatstaf (zoals de Gini Index) wordt gebruikt om de beste splitsing op elk knooppunt te bepalen.

Om dit te illustreren moeten we een voorbeeld bekijken van een beslisboom voor een binaire classificatiekwestie. De boom bestaat uit twee elementen: leeftijd en inkomen, en het doel is om te voorspellen, ongeacht of een individu waarschijnlijk een artikel gaat kopen. De boom is geconstrueerd met behulp van de Gini-index als maatstaf voor onzuiverheid.

Bij de rootnode wordt de Gini Index berekend met het oog op de waarschijnlijkheid dat de voorbeelden een plaats hebben met klasse 0 of klasse 1. De node wordt gesplitst met het oog op de component die resulteert in de hoogste daling van de Gini Index. Deze cyclus wordt voor elke subset recursief herhaald totdat aan een stopmaatregel is voldaan.

Beslissingsbomen

Een beslissingsboom is een bekend machine learning-algoritme dat wordt gebruikt voor zowel classificatie- als regressietaken. Er wordt gewerkt aan een model door de dataset recursief op te splitsen in meer bescheiden subsets in het licht van de waarden van de infohighlights, vastbesloten om de onzuiverheid van de daaropvolgende subsets te beperken.

Op elk knooppunt van de boom wordt een beslissing genomen met het oog op de waarden van een van de info-highlights, met als einddoel dat de daaropvolgende subsets in principe zo puur zijn als werkelijk verwacht kon worden. De zuiverheid van een subset wordt regelmatig geschat aan de hand van een onzuiverheidsmaatstaf, bijvoorbeeld de Gini-index of de entropie.

Het beslissingsboomalgoritme kan worden gebruikt voor zowel binaire classificatietaken als classificatietaken met meerdere klassen, evenals voor regressietaken. Bij binaire classificatietaken splitst de beslissingsboom de dataset in twee subsets in het licht van de waarde van een binair kenmerk, zoals ja of nee. Bij classificatietaken met meerdere klassen splitst de beslissingsboom de dataset op in talloze subsets in het licht van de waarden van een duidelijk kenmerk, zoals rood, groen of blauw.

Gini-index versus andere onzuiverheidsmaatregelen

Naast de Gini-index zijn er nog andere onzuiverheidsmaatstaven die normaal gesproken worden gebruikt in beslissingsboomalgoritmen, bijvoorbeeld entropie en informatiewinst.

Entropie:

Bij machinaal leren is entropie een deel van de onregelmatigheid of kwetsbaarheid in een reeks gegevens. Het wordt over het algemeen gebruikt als maatstaf voor onzuiverheid in beslissingsboomalgoritmen, naast de Gini-index.

In beslissingsboomalgoritmen wordt entropie gebruikt om te bepalen op welke component de gegevens het beste kunnen worden gesplitst op elk knooppunt van de boom. Het doel is om het element te vinden dat resulteert in de grootste afname van de entropie, dat betrekking heeft op de component die de meeste informatie geeft over het classificatieprobleem.

Gini-index in machinaal leren

Hoewel entropie en de Gini-index normaal gesproken beide worden gebruikt als onzuiverheidsmaatstaven in beslissingsboomalgoritmen, hebben ze verschillende eigenschappen. Entropie is gevoeliger voor de circulatie van klassenamen en zal in het algemeen meer aangepaste bomen opleveren, terwijl de Gini Index minder gevoelig is voor de toe-eigening van klassemarkeringen en in het algemeen beperktere bomen zal creëren met minder splitsingen. De beslissing over de onzuiverheidsmaatregel is afhankelijk van het specifieke probleem en de kenmerken van de gegevens.

Informatiewinst:

Informatiewinst is een actie die wordt gebruikt om de aard van een splitsing te beoordelen tijdens het bouwen van een beslisboom. Het doel van een beslissingsboom is om de gegevens op te splitsen in subsets die in principe net zo homogeen als mogelijk zijn als voor de objectieve variabele, zodat de daaropvolgende boom kan worden gebruikt om exacte verwachtingen te maken over nieuwe gegevens. Informatiewinst meet de afname van entropie of onzuiverheid die door een splitsing wordt bereikt. Het kenmerk met de meest opmerkelijke informatiewinst wordt gekozen als het beste kenmerk om op te splitsen in elk knooppunt van de beslisboom.

Informatiewinst is normaal gesproken een maatstaf voor het beoordelen van de aard van splitsingen in beslissingsbomen, maar het is niet de maatstaf waar we ons op moeten concentreren. Verschillende maatstaven, bijvoorbeeld de Gini-index of het misclassificatiepercentage, kunnen eveneens worden gebruikt. De beslissing over de splitsingsbasis is afhankelijk van het hoofdprobleem en de attributen van de dataset die wordt gebruikt.

Voorbeeld van Gini-index

We moeten een probleem met binaire classificatie overwegen waarbij we een dataset hebben van tien voorbeelden met twee klassen: 'Positief' en 'Negatief'. Van de 10 voorbeelden hebben er 6 een plaats in de klasse 'Positief' en 4 een plaats in de klasse 'Negatief'.

Om de Gini-index van de dataset te berekenen, berekenen we eerst de waarschijnlijkheid van elke klasse:

p_1 = 6/10 = 0,6 (positief)

p_2 = 4/10 = 0,4 (negatief)

Vervolgens gebruiken we op dat moment de Gini Index-formule om de onzuiverheid van de dataset te berekenen:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

De Gini-index van de dataset is dus 0,48.

Stel nu dat we de dataset moeten splitsen op een element 'X' dat twee potentiële waarden heeft: 'A' en 'B'. We splitsen de dataset in twee subsets met het oog op de component:

Deelverzameling 1 (X = A): 4 positief, 1 negatief

Deelverzameling 2 (X = B): 2 positief, 3 negatief

Om de afname van de Gini-index voor deze splitsing te berekenen, berekenen we in eerste instantie de Gini-index van elke subset:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Vervolgens gebruiken we de formule voor informatieversterking om de daling van de Gini-index te berekenen:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

De informatiewinst (d.w.z. afname van de Gini-index) voor het splitsen van de dataset op hoogtepunt 'X' is dus 0,08.

In deze situatie zou, in het geval dat we de informatiewinst voor alle elementen berekenen en degene met de meest opmerkelijke informatiewinst kiezen, die component worden gekozen als de beste component om op te splitsen in het hoofdknooppunt van de beslissingsboom.

Voordelen:

De Gini-index is een breed inzetbare maatstaf voor het evalueren van de aard van splitsingen in beslissingsbomen, en heeft een aantal voordelen boven andere maatstaven, bijvoorbeeld het entropie- of misclassificatiepercentage. Hier volgen enkele van de belangrijkste voordelen van het gebruik van de Gini-index:

java naar json-object

Computationeel efficiënt: De Gini-index is een minder complexe en computationeel snellere maatstaf in tegenstelling tot andere maten, bijvoorbeeld entropie, waarbij logaritmen worden berekend.

Intuïtieve interpretatie: De Gini-index is eenvoudig en interpreteerbaar. Het meet de waarschijnlijkheid dat een lukraak gekozen exemplaar uit een set onjuist wordt geclassificeerd in het geval dat het lukraak wordt gemarkeerd volgens de klasseoverdracht in de set.

Goed voor binaire classificatie: De Gini-index is vooral krachtig voor binaire classificatieproblemen, waarbij de objectieve variabele slechts twee klassen heeft. In dergelijke gevallen is het bekend dat de Gini-index stabieler is dan andere maatstaven.

Robuust naar klassenonevenwicht: De Gini-index is minder gevoelig voor klassenonevenwichtigheid, in tegenstelling tot verschillende maatstaven, bijvoorbeeld de nauwkeurigheid of het percentage misclassificaties. Dit is op grond van het feit dat de Gini-index afhangt van de algemene omvang van voorbeelden in elke klasse, in tegenstelling tot de absolute cijfers.

Minder gevoelig voor overfitting: De Gini-index zal over het algemeen bescheidener beslissingsbomen opleveren in contrast met verschillende maatstaven, waardoor deze minder vatbaar is voor overfitting. Dit is op grond van het feit dat de Gini-index in het algemeen de voorkeur zal geven aan kenmerken die bescheidener pakketten van de gegevens vormen, waardoor de mogelijkheden tot overfitting afnemen.

Nadelen:

Hoewel de Gini-index enkele voordelen biedt als splitsingsmaatregel voor beslissingsbomen, heeft hij ook enkele nadelen. Hier zijn enkele van de belangrijkste nadelen van het gebruik van de Gini-index:

Voorkeur voor functies met veel categorieën: De Gini-index zal over het algemeen neigen naar kenmerken met veel categorieën of waarden, omdat ze meer splitsingen en pakketjes van de gegevens kunnen maken. Dit kan leiden tot overfitting en een ingewikkelder beslissingsboom.

Niet goed voor continue variabelen: De Gini-index is niet geschikt voor continue variabelen, omdat de variabele moet worden gediscretiseerd in categorieën of bakken, wat kan leiden tot verlies van informatie en verminderde nauwkeurigheid.

Negeert functie-interacties: De Gini-index denkt alleen aan de individuele vooruitziende kracht van elk kenmerk en negeert interacties tussen kenmerken. Dit kan leiden tot slechte splitsingen en minder exacte voorspellingen.

Niet ideaal voor sommige datasets: soms is de Gini-index misschien niet de ideale maatstaf voor het evalueren van de aard van splitsingen in een beslisboom. In het geval dat de objectieve variabele bijvoorbeeld uitzonderlijk scheef of onevenwichtig is, kunnen verschillende maatstaven, bijvoorbeeld de informatiewinst of de winstproportie, geschikter zijn.

Gevoelig voor vertekening bij aanwezigheid van ontbrekende waarden: De Gini-index kan vertekend zijn in de aanwezigheid van ontbrekende waarden, omdat deze in het algemeen zal neigen naar kenmerken met minder ontbrekende waarden, ongeacht of deze niet de meest informatieve zijn.

Real-World toepassingen van Gini Index

De Gini Index is gebruikt in verschillende toepassingen op het gebied van machinaal leren, bijvoorbeeld bij het lokaliseren van afpersingen, het scoren van kredieten en het verdelen van klanten. Bij het ontdekken van afpersing kan de Gini Index bijvoorbeeld worden gebruikt om ontwerpen in uitwisselingsgegevens te onderscheiden en bizarre gedragingen te herkennen. Bij kredietscores kan de Gini-index worden gebruikt om de waarschijnlijkheid van wanbetaling te voorspellen met het oog op variabelen als inkomen, de relatie tussen uitstaande schulden en het loon naar huis, en de staat van dienst op het gebied van de terugbetaling van leningen. Bij de klantenverdeling kan de Gini Index worden gebruikt om klanten te groeperen op basis van hun gedrag en neigingen.

Toekomstig onderzoek

Ondanks het grenzeloze gebruik ervan in beslissingsboomalgoritmen, is er nog steeds ruimte voor onderzoek naar de Gini Index. Eén onderzoeksgebied is de ontwikkeling van nieuwe onzuiverheidsmaatregelen die de beperkingen van de Gini-index kunnen aanpakken, zoals de neiging ervan naar factoren met veel niveaus. Nog een onderzoeksgebied is het stroomlijnen van beslisboomalgoritmen met behulp van de Gini Index, bijvoorbeeld het gebruik van outfittechnieken om aan de precisie van beslisbomen te werken.

Conclusie

De Gini-index is een belangrijke onzuiverheidsmaatstaf die wordt gebruikt in beslissingsboomalgoritmen voor classificatietaken. Het meet de waarschijnlijkheid dat een lukraak gekozen test verkeerd wordt geclassificeerd door een beslissingsboomalgoritme, en de waarde ervan gaat van 0 (perfect zuiver) tot 1 (perfect onzuiver). De Gini Index is eenvoudig en uitvoerbaar, rekenkundig productief en krachtig bij uitzonderingen. Het is gebruikt in verschillende toepassingen op het gebied van machinaal leren, bijvoorbeeld bij het ontdekken van verkeerde voorstelling van zaken, kredietscores en klantverdeling. Hoewel de Gini Index enkele beperkingen heeft, is er nog steeds ruimte voor onderzoek naar de verbetering ervan en naar verbetering van nieuwe onzuiverheidsmaatregelen.