logo

Begeleid en onbewaakt leren

Machine learning is een gebied van de informatica dat computers de mogelijkheid geeft om te leren zonder expliciet geprogrammeerd te zijn. Begeleid leren en onbegeleid leren zijn twee hoofdtypen machinaal leren .

In leren onder toezicht wordt de machine getraind op een set gelabelde gegevens, wat betekent dat de invoergegevens worden gekoppeld aan de gewenste uitvoer. De machine leert vervolgens de uitvoer te voorspellen voor nieuwe invoergegevens. Begeleid leren wordt vaak gebruikt voor taken zoals classificatie, regressie en objectdetectie.

Bij onbewaakt leren wordt de machine getraind op een reeks ongelabelde gegevens, wat betekent dat de invoergegevens niet zijn gekoppeld aan de gewenste uitvoer. De machine leert vervolgens patronen en relaties in de gegevens te vinden. Leren zonder toezicht wordt vaak gebruikt voor taken zoals clustering , dimensionaliteitsreductie en anomaliedetectie.



Wat is begeleid leren?

Begeleid leren is een vorm van machine learning-algoritme dat leert van gelabelde gegevens. Gelabelde gegevens zijn gegevens die zijn getagd met een juist antwoord of classificatie.

Bij begeleid leren is, zoals de naam al aangeeft, de aanwezigheid van een begeleider als docent aanwezig. Onder toezicht leren is het aanleren of trainen van de machine met behulp van gegevens die goed zijn gelabeld. Dat betekent dat sommige gegevens al zijn getagd met het juiste antwoord. Daarna wordt de machine voorzien van een nieuwe set voorbeelden (gegevens), zodat het begeleide leeralgoritme de trainingsgegevens (set trainingsvoorbeelden) analyseert en een correct resultaat produceert op basis van gelabelde gegevens.

In een gelabelde dataset met afbeeldingen van Olifant, Kameel en Koe wordt elke afbeelding bijvoorbeeld getagd met Olifant, Kameel of Koe.

Leren onder toezicht

Belangrijkste punten:

  • Bij begeleid leren gaat het om het trainen van een machine op basis van gelabelde gegevens.
  • Gelabelde gegevens bestaan ​​uit voorbeelden met het juiste antwoord of de juiste classificatie.
  • De machine leert de relatie tussen input (fruitafbeeldingen) en output (fruitlabels).
  • De getrainde machine kan vervolgens voorspellingen doen op basis van nieuwe, ongelabelde gegevens.

Voorbeeld:

Stel dat u een fruitmand heeft die u wilt identificeren. De machine analyseert eerst de afbeelding om kenmerken zoals de vorm, kleur en textuur eruit te halen. Vervolgens vergelijkt het deze kenmerken met de kenmerken van de vruchten waarover het al heeft geleerd. Als de kenmerken van de nieuwe afbeelding het meest lijken op die van een appel, zou de machine voorspellen dat de vrucht een appel is.

uitpakken in Linux

Bijvoorbeeld Stel je voor dat je een mand krijgt gevuld met verschillende soorten fruit. Nu is de eerste stap het trainen van de machine met alle verschillende soorten fruit, één voor één, als volgt:

  • Als de vorm van het object afgerond is en bovenaan een verdieping heeft, rood van kleur is, wordt het gelabeld als – Appel .
  • Als de vorm van het object een lange gebogen cilinder is met een groen-gele kleur, wordt het geëtiketteerd als - Banaan .

Stel nu dat je, na het trainen van de gegevens, een nieuwe, aparte vrucht hebt gegeven, bijvoorbeeld een banaan uit de mand, en hebt gevraagd om deze te identificeren.

Omdat de machine de dingen al uit eerdere gegevens heeft geleerd en deze deze keer verstandig moet gebruiken. Het zal het fruit eerst classificeren op basis van zijn vorm en kleur en de fruitnaam bevestigen als BANAAN en het in de categorie Bananen plaatsen. Zo leert de machine de dingen uit trainingsgegevens (mand met fruit) en past deze kennis vervolgens toe om gegevens te testen (nieuw fruit).

Soorten begeleid leren

Begeleid leren wordt ingedeeld in twee categorieën algoritmen:

  • Regressie : Er is sprake van een regressieprobleem als de uitvoervariabele een reële waarde is, zoals dollars of gewicht.
  • Classificatie : Er is sprake van een classificatieprobleem als de uitvoervariabele een categorie is, zoals Rood of blauw, ziekte of geen ziekte.

Begeleid leren gaat over of leert met gelabelde gegevens. Dit houdt in dat sommige gegevens al zijn getagd met het juiste antwoord.

1- Regressie

Regressie is een soort begeleid leren dat wordt gebruikt om continue waarden te voorspellen, zoals huizenprijzen, aandelenkoersen of klantverloop. Regressie-algoritmen leren een functie die van de invoerkenmerken naar de uitvoerwaarde toewijst.

Sommige vaak voorkomend regressie-algoritmen erbij betrekken:

  • Lineaire regressie
  • Polynomiale regressie
  • Ondersteuning van vectormachineregressie
  • Regressie van de beslissingsboom
  • Willekeurige bosregressie

2- Classificatie

Classificatie is een vorm van begeleid leren dat wordt gebruikt om categorische waarden te voorspellen, zoals of een klant wel of niet zal churnen, of een e-mail spam is of niet, en of een medisch beeld een tumor laat zien of niet. Classificatie-algoritmen leren een functie die vanuit de invoerkenmerken wordt toegewezen aan een waarschijnlijkheidsverdeling over de uitvoerklassen.

hoe int naar string-java te converteren

Sommige vaak voorkomend classificatie-algoritmen erbij betrekken:

  • Logistieke regressie
  • Ondersteuning van vectormachines
  • Beslissingsbomen
  • Willekeurige bossen
  • Naïeve Baye

Evaluatie van begeleide leermodellen

Het evalueren van modellen voor begeleid leren is een belangrijke stap om ervoor te zorgen dat het model accuraat en generaliseerbaar is. Er zijn een aantal verschillende statistieken die kunnen worden gebruikt om modellen voor begeleid leren te evalueren, maar enkele van de meest voorkomende zijn:

Voor regressie

  • Gemiddelde kwadratische fout (MSE): MSE meet het gemiddelde kwadratische verschil tussen de voorspelde waarden en de werkelijke waarden. Lagere MSE-waarden duiden op betere modelprestaties.
  • Root Mean Squared Error (RMSE): RMSE is de vierkantswortel van MSE, die de standaarddeviatie van de voorspellingsfouten vertegenwoordigt. Net als bij MSE duiden lagere RMSE-waarden op betere modelprestaties.
  • Gemiddelde absolute fout (MAE): MAE meet het gemiddelde absolute verschil tussen de voorspelde waarden en de werkelijke waarden. Het is minder gevoelig voor uitschieters in vergelijking met MSE of RMSE.
  • R-kwadraat (Bepalingscoëfficiënt): R-kwadraat meet het deel van de variantie in de doelvariabele dat door het model wordt verklaard. Hogere R-kwadraatwaarden duiden op een betere modelfit.

Voor classificatie

  • Nauwkeurigheid: Nauwkeurigheid is het percentage voorspellingen dat het model correct maakt. Het wordt berekend door het aantal correcte voorspellingen te delen door het totale aantal voorspellingen.
  • Precisie: Precisie is het percentage positieve voorspellingen dat het model doet en daadwerkelijk correct is. Het wordt berekend door het aantal echte positieven te delen door het totale aantal positieve voorspellingen.
  • Herinneren: Recall is het percentage van alle positieve voorbeelden dat het model correct identificeert. Het wordt berekend door het aantal echte positieven te delen door het totale aantal positieve voorbeelden.
  • F1-score: De F1-score is een gewogen gemiddelde van precisie en herinnering. Het wordt berekend door het harmonische gemiddelde van precisie en herinnering te nemen.
  • Verwarringsmatrix: Een verwarringsmatrix is ​​een tabel die het aantal voorspellingen voor elke klasse weergeeft, samen met de daadwerkelijke klassenlabels. Het kan worden gebruikt om de prestaties van het model te visualiseren en gebieden te identificeren waar het model het moeilijk heeft.

Toepassingen van begeleid leren

Begeleid leren kan worden gebruikt om een ​​breed scala aan problemen op te lossen, waaronder:

plsql
  • Spamfiltering: Algoritmen voor begeleid leren kunnen worden getraind om spam-e-mails te identificeren en te classificeren op basis van hun inhoud, waardoor gebruikers ongewenste berichten kunnen vermijden.
  • Afbeeldingsclassificatie: Begeleid leren kan afbeeldingen automatisch indelen in verschillende categorieën, zoals dieren, objecten of scènes, waardoor taken als het zoeken naar afbeeldingen, het modereren van inhoud en op afbeeldingen gebaseerde productaanbevelingen worden vergemakkelijkt.
  • Medische diagnose: Begeleid leren kan helpen bij medische diagnoses door patiëntgegevens, zoals medische beelden, testresultaten en patiëntgeschiedenis, te analyseren om patronen te identificeren die wijzen op specifieke ziekten of aandoeningen.
  • Fraude detectie: Modellen voor begeleid leren kunnen financiële transacties analyseren en patronen identificeren die wijzen op frauduleuze activiteiten, waardoor financiële instellingen fraude kunnen voorkomen en hun klanten kunnen beschermen.
  • Natuurlijke taalverwerking (NLP): Begeleid leren speelt een cruciale rol bij NLP-taken, waaronder sentimentanalyse, automatische vertaling en samenvatting van teksten, waardoor machines menselijke taal effectief kunnen begrijpen en verwerken.

Voordelen van begeleid leren

  • Begeleid leren maakt het verzamelen van gegevens mogelijk en produceert gegevensuitvoer uit eerdere ervaringen.
  • Helpt prestatiecriteria te optimaliseren met behulp van ervaring.
  • Machine learning onder toezicht helpt bij het oplossen van verschillende soorten rekenproblemen in de echte wereld.
  • Het voert classificatie- en regressietaken uit.
  • Hiermee kunt u het resultaat schatten of toewijzen aan een nieuw monster.
  • We hebben volledige controle over het kiezen van het aantal lessen dat we in de trainingsgegevens willen hebben.

Nadelen van begeleid leren

  • Het classificeren van big data kan een uitdaging zijn.
  • Het trainen van begeleid leren vergt veel rekentijd. Het vergt dus veel tijd.
  • Begeleid leren kan niet alle complexe taken in Machine Learning aan.
  • De rekentijd voor begeleid leren is enorm.
  • Het vereist een gelabelde dataset.
  • Het vereist een trainingsproces.

Wat is onbegeleid leren?

Unsupervised learning is een vorm van machinaal leren dat leert van ongelabelde gegevens. Dit betekent dat de gegevens geen reeds bestaande labels of categorieën hebben. Het doel van onbewaakt leren is om patronen en relaties in de gegevens te ontdekken zonder enige expliciete begeleiding.

Ongecontroleerd leren is het trainen van een machine met behulp van informatie die niet geclassificeerd of gelabeld is, en het algoritme in staat stelt om zonder begeleiding op die informatie te reageren. Hier is het de taak van de machine om ongesorteerde informatie te groeperen op basis van overeenkomsten, patronen en verschillen, zonder enige voorafgaande training van gegevens.

In tegenstelling tot leren onder toezicht, wordt er geen leraar voorzien, wat betekent dat er geen training aan de machine wordt gegeven. Daarom is de machine beperkt in het zelf vinden van de verborgen structuur in ongelabelde gegevens.

U kunt leren zonder toezicht gebruiken om de verzamelde diergegevens te onderzoeken en onderscheid te maken tussen verschillende groepen op basis van de eigenschappen en acties van de dieren. Deze groeperingen kunnen overeenkomen met verschillende diersoorten, waardoor u de wezens kunt categoriseren zonder afhankelijk te zijn van reeds bestaande labels.

Leren zonder toezicht

Kernpunten

  • Door onbewaakt leren kan het model patronen en relaties in ongelabelde gegevens ontdekken.
  • Clusteralgoritmen groeperen vergelijkbare datapunten op basis van hun inherente kenmerken.
  • Functie-extractie legt essentiële informatie uit de gegevens vast, waardoor het model betekenisvolle onderscheidingen kan maken.
  • Labelassociatie wijst categorieën toe aan de clusters op basis van de geëxtraheerde patronen en kenmerken.

Voorbeeld

Stel je voor dat je een machine learning-model hebt dat is getraind op een grote dataset van ongelabelde afbeeldingen, die zowel honden als katten bevatten. Het model heeft nog nooit een afbeelding van een hond of kat gezien en beschikt niet over bestaande labels of categorieën voor deze dieren. Jouw taak is om zonder toezicht leren te gebruiken om de honden en katten in een nieuw, onzichtbaar beeld te identificeren.

Bijvoorbeeld Stel dat hij een afbeelding krijgt met zowel honden als katten, die hij nog nooit heeft gezien.

De machine heeft dus geen idee van de kenmerken van honden en katten, dus we kunnen hem niet categoriseren als ‘honden en katten’. Maar het kan ze categoriseren op basis van hun overeenkomsten, patronen en verschillen, dat wil zeggen dat we het bovenstaande beeld gemakkelijk in twee delen kunnen categoriseren. De eerste kan alle foto's bevatten honden erin en het tweede deel kan alle foto's bevatten katten in hen. Hier heb je nog niets geleerd, dus geen trainingsgegevens of voorbeelden.

Hierdoor kan het model zelfstandig werken om patronen en informatie te ontdekken die voorheen niet werden gedetecteerd. Het gaat voornamelijk om ongelabelde gegevens.

Soorten onbewaakt leren

Leren zonder toezicht wordt geclassificeerd in twee categorieën algoritmen:

  • Clustering : Bij een clusterprobleem wilt u de inherente groeperingen in de gegevens ontdekken, zoals het groeperen van klanten op basis van koopgedrag.
  • Vereniging : Bij een leerprobleem voor associatieregels wilt u regels ontdekken die grote delen van uw gegevens beschrijven, zoals mensen die X kopen, ook vaak Y kopen.

Clustering

Clustering is een vorm van onbewaakt leren dat wordt gebruikt om vergelijkbare datapunten te groeperen. Clusteringalgoritmen werken door datapunten iteratief dichter bij hun clustercentra en verder weg van datapunten in andere clusters te verplaatsen.

  1. Exclusief (partitionering)
  2. Agglomeratief
  3. Overlappend
  4. Probabilistisch

Clustertypen: -

  1. Hiërarchische clustering
  2. K-betekent clustering
  3. Hoofdcomponentenanalyse
  4. Singuliere waarden ontbinding
  5. Onafhankelijke componentanalyse
  6. Gaussiaanse mengselmodellen (GMM's)
  7. Op dichtheid gebaseerde ruimtelijke clustering van toepassingen met ruis (DBSCAN)

Het leren van associatieregels

Associatieregelleren is een vorm van leren zonder toezicht dat wordt gebruikt om patronen in gegevens te identificeren. Verenigingsregel leeralgoritmen werken door relaties te vinden tussen verschillende items in een dataset.

Enkele veel voorkomende algoritmen voor het leren van associatieregels zijn:

  • Apriori-algoritme
  • Eclat-algoritme
  • FP-groei-algoritme

Evaluatie van niet-gecontroleerde leermodellen

Het evalueren van niet-gesuperviseerde leermodellen is een belangrijke stap om ervoor te zorgen dat het model effectief en bruikbaar is. Het kan echter een grotere uitdaging zijn dan het evalueren van modellen voor begeleid leren, omdat er geen grondwaarheidsgegevens zijn waarmee de voorspellingen van het model kunnen worden vergeleken.

Er zijn een aantal verschillende maatstaven die kunnen worden gebruikt om niet-onder toezicht staande leermodellen te evalueren, maar enkele van de meest voorkomende zijn:

vb en vb net
  • Silhouetscore: De silhouetscore meet hoe goed elk datapunt is geclusterd met zijn eigen clusterleden en gescheiden is van andere clusters. Het varieert van -1 tot 1, waarbij hogere scores wijzen op een betere clustering.
  • Calinski-Harabasz-score: De Calinski-Harabasz-score meet de verhouding tussen de variantie tussen clusters en de variantie binnen clusters. Het varieert van 0 tot oneindig, waarbij hogere scores wijzen op een betere clustering.
  • Aangepaste Randindex: De aangepaste Randindex meet de gelijkenis tussen twee clusteringen. Het varieert van -1 tot 1, waarbij hogere scores duiden op meer vergelijkbare clusteringen.
  • Davies-Bouldin-index: De Davies-Bouldin-index meet de gemiddelde gelijkenis tussen clusters. Het varieert van 0 tot oneindig, waarbij lagere scores wijzen op een betere clustering.
  • F1-score: De F1-score is een gewogen gemiddelde van precisie en herinnering, twee maatstaven die vaak worden gebruikt bij begeleid leren om classificatiemodellen te evalueren. De F1-score kan echter ook worden gebruikt om niet-gesuperviseerde leermodellen, zoals clustermodellen, te evalueren.

Sollicitatie van onbegeleid leren

Leren zonder toezicht kan worden gebruikt om een ​​breed scala aan problemen op te lossen, waaronder:

  • Detectie van afwijkingen: Leren zonder toezicht kan ongebruikelijke patronen of afwijkingen van normaal gedrag in gegevens identificeren, waardoor de detectie van fraude, inbraak of systeemfouten mogelijk wordt.
  • Wetenschappelijke ontdekking: Leren zonder toezicht kan verborgen relaties en patronen in wetenschappelijke gegevens blootleggen, wat leidt tot nieuwe hypothesen en inzichten op verschillende wetenschappelijke gebieden.
  • Aanbevelingssystemen: Leren zonder toezicht kan patronen en overeenkomsten in gebruikersgedrag en -voorkeuren identificeren om producten, films of muziek aan te bevelen die aansluiten bij hun interesses.
  • Klantsegmentatie: Leren zonder toezicht kan groepen klanten met vergelijkbare kenmerken identificeren, waardoor bedrijven marketingcampagnes kunnen richten en de klantenservice effectiever kunnen verbeteren.
  • Beeldanalyse: Leren zonder toezicht kan afbeeldingen groeperen op basis van hun inhoud, waardoor taken als beeldclassificatie, objectdetectie en het ophalen van afbeeldingen worden vergemakkelijkt.

Voordelen van onbegeleid leren

  • Het is niet nodig dat trainingsgegevens worden gelabeld.
  • Het verminderen van de dimensionaliteit kan eenvoudig worden bereikt met behulp van leren zonder toezicht.
  • In staat om voorheen onbekende patronen in data te vinden.
  • Leren zonder toezicht kan u helpen inzichten te verkrijgen uit niet-gelabelde gegevens die u anders misschien niet had kunnen verkrijgen.
  • Leren zonder toezicht is goed in het vinden van patronen en relaties in gegevens zonder dat u wordt verteld waar u op moet letten. Dit kan u helpen nieuwe dingen over uw gegevens te leren.

Nadelen van onbegeleid leren

  • Moeilijk om de nauwkeurigheid of effectiviteit te meten vanwege het ontbreken van vooraf gedefinieerde antwoorden tijdens de training.
  • De resultaten zijn vaak minder nauwkeurig.
  • De gebruiker moet tijd besteden aan het interpreteren en labelen van de klassen die deze classificatie volgen.
  • Leren zonder toezicht kan gevoelig zijn voor de gegevenskwaliteit, inclusief ontbrekende waarden, uitschieters en ruis in gegevens.
  • Zonder gelabelde gegevens kan het moeilijk zijn om de prestaties van onbewaakte leermodellen te evalueren, waardoor het een uitdaging wordt om de effectiviteit ervan te beoordelen.

Onder toezicht versus onbewaakt machinaal leren

Parameters Begeleiden van machinaal leren Machine learning zonder toezicht
Invoergegevens Algoritmen worden getraind met behulp van gelabelde gegevens. Algoritmen worden gebruikt tegen gegevens die niet zijn gelabeld
Computationele complexiteit Eenvoudigere methode Computationeel complex
Nauwkeurigheid Zeer nauwkeurig Minder precies
Aantal lessen Aantal klassen is bekend Aantal klassen is niet bekend
Gegevensanalyse Maakt gebruik van offline analyse Maakt gebruik van realtime analyse van gegevens
Gebruikte algoritmen

Lineaire en logistieke regressie, willekeurig bos, classificatie met meerdere klassen, beslissingsboom, ondersteuningsvectormachine, neuraal netwerk, enz.

K-Means clustering, hiërarchische clustering, KNN, Apriori-algoritme, enz.

Uitvoer De gewenste output is gegeven. De gewenste output wordt niet gegeven.
Trainingsdata Gebruik trainingsgegevens om het model af te leiden. Er worden geen trainingsgegevens gebruikt.
Complex model Het is niet mogelijk om grotere en complexere modellen te leren dan bij begeleid leren. Het is mogelijk om grotere en complexere modellen te leren met leren zonder toezicht.
Model We kunnen ons model testen. We kunnen ons model niet testen.
Genoemd als Begeleid leren wordt ook wel classificatie genoemd. Onbegeleid leren wordt ook wel clustering genoemd.
Voorbeeld Voorbeeld: optische tekenherkenning. Voorbeeld: Zoek een gezicht in een afbeelding.

Overzicht

Begeleid leren heeft begeleiding nodig om het model te trainen.

Voor leren zonder toezicht is geen toezicht nodig om het model te trainen.

Conclusie

Begeleid en onbewaakt leren zijn twee krachtige hulpmiddelen die kunnen worden gebruikt om een ​​breed scala aan problemen op te lossen. Leren onder toezicht is zeer geschikt voor taken waarbij de gewenste output bekend is, terwijl leren zonder toezicht zeer geschikt is voor taken waarbij de gewenste output onbekend is.

Veelgestelde vragen (FAQ's)

1. Wat is het verschil tussen gecontroleerde en niet-gecontroleerde machinetaal?

Begeleid en onbewaakt leren zijn twee fundamentele benaderingen van machinaal leren die verschillen qua trainingsgegevens en leerdoelen.

  • Leren onder toezicht omvat het trainen van een machine learning-model op een gelabelde dataset, waarbij elk datapunt een corresponderend label of uitvoerwaarde heeft. Het algoritme leert de invoergegevens toe te wijzen aan de gewenste uitvoer, waardoor het voorspellingen kan doen voor nieuwe, ongeziene gegevens.
  • Ongecontroleerd leren daarentegen gaat over ongelabelde datasets, waarbij de datapunten geen bijbehorende labels of uitvoerwaarden hebben.

2. Wat is begeleid leren?

Begeleid leren is een vorm van machinaal leren waarbij het algoritme wordt getraind op een gelabelde dataset, waarbij elk datapunt een corresponderend label of uitvoerwaarde heeft. Het algoritme leert de invoergegevens toe te wijzen aan de gewenste uitvoer, waardoor het voorspellingen kan doen voor nieuwe, ongeziene gegevens.

3. Wat zijn veelgebruikte algoritmen voor begeleid leren?

Veelgebruikte algoritmen voor begeleid leren zijn onder meer:

  • Classificatie: Wordt gebruikt om categorieën aan datapunten toe te wijzen. Voorbeelden zijn onder meer ondersteuningsvectormachines (SVM's), logistieke regressie en beslissingsbomen.
  • Regressie: Wordt gebruikt om continue numerieke waarden te voorspellen. Voorbeelden zijn onder meer lineaire regressie, polynomiale regressie en randregressie.

4. Wat zijn veelgebruikte leeralgoritmen zonder toezicht?

Veel voorkomende leeralgoritmen zonder toezicht zijn onder meer:

  • Clustering: Gegevenspunten groeperen in clusters op basis van hun gelijkenis. Voorbeelden zijn onder meer k-means-clustering en hiërarchische clustering.
  • Dimensionaliteitsreductie: Het aantal features in een dataset verminderen met behoud van de belangrijkste informatie. Voorbeelden hiervan zijn hoofdcomponentenanalyse (PCA) en autoencoders.

5. Wat is onbegeleid leren?

Unsupervised learning is een vorm van machinaal leren waarbij het algoritme wordt getraind op een ongelabelde dataset, waarbij de datapunten geen overeenkomstige labels of uitvoerwaarden hebben. Het algoritme leert zonder expliciete begeleiding patronen en structuren in de data te identificeren.

panda's loc

6. Wanneer gebruik je begeleid leren versus onbegeleid leren?

Gebruik begeleid leren als u een gelabelde dataset heeft en voorspellingen wilt doen voor nieuwe gegevens. Gebruik onbewaakt leren als u een ongelabelde dataset hebt en patronen of structuren in de gegevens wilt identificeren.