Klassifikatioun am Data Mining

Klassifikatioun ass eng Donnerengerbiergstechnik, déi Kategorien op eng Sammlung vu Daten zouweist, fir méi präziséiert Préift a Analyse ze hëllefen. Also genannt heiansdo als Decision Tree genannt , ass Klassifikatioun eng vun e puer Methoden, déi d'Analyse vun grousser Datebank effektiv maachen.

Firwat Klassifikatioun?

Ganz grouss Datenbanken ginn d'Norm an der heiteger Welt vu "grouss Daten". Stellt Iech eng Datebank mat méi Terabyte vu Daten a-Terabyte e Billion vun Bytes Daten.

Facebook alleng knapp 600 Terabyte vun neie Daten all Dag (wéi vun 2014, déi lescht Kéier dat dës Besëtzer bericht huet). Déi éischt Erausfuerderung vu groussen Daten ass wéi et Sënn mécht.

A grousser Band ass net deen eenzegen Problem: Grouss Donnéen hunn och vill, onstrukturéiert a séier changéiert. Betrag Audio- a Video Daten, sozialen Medien Poste, 3D Daten oder Geospatial Daten. Dës Zort vun Daten gëtt net einfach kategoriséiert a organiséiert.

Fir dës Erausfuerderung ze kompenséieren ass eng Rei vun automateschen Methoden fir d'nëtzlech Informatioun ze sammelen, dorënner Klassifikatioun .

Wéi Klassifikatioun fonktionnéiert

Bei der Gefor vu sech ze wäit an technesch schwätzen, lass eis diskutéieren wéi d'Klassifikatioun funktionnéiert. D'Zil ass et eng Rei vu Klassementregelen ze kreéieren déi eng Fro beäntweren, eng Entscheedung huelen oder Virgoen virusetzen. De Start ass eng Rei Trainingsdaten, déi e bestëmmten Satz vun Attributer enthält, wéi och déi wahrscheinlech Resultater.

D'Aufgab vum Klassifizéierung Algorithmus ass fir ze entdecken, wéi dësen Attribut ass attraktiv.

Szenario : Vläicht eng Kreditkaart Firma versicht ze bestëmmen wat wéi eng Perspektiven eng Kreditkarton ubidden soll.

Dëst kéint säi Set vun Trainingsdaten:

Trainingsdaten
Numm Alter Geschlecht Joresakommes Kreditkart Offer
John Doe 25 M $ 39.500 Nee
Jane Doe 56 F 125.000 Dollar Jo

D'"Prädiktor" Säulen Alter , Geschlecht a Joresumkommen bestëmmen d'Wäert vum "Prädiktor Attribut" Kreditkart Offer . An enger Trainingsnumm ass de Prädiktor Attribut bekannt. De Klassifizéierung Algorithmus versprécht dann festzestellen wéi de Wäert vum Prädiktor Attribut erreecht gouf: Wéi eng Bezéiung tëscht den Prädiktoren an der Decisioun? Et wäert eng Rei vu Prediction Regelungen entwéckelen, normalerweis eng IF / THEN Ausso, zum Beispill:

WANN (Alter> 18 ODER Alter <75) a Joresvertrauen> 40.000 THEN Kreditkaart Offer = jo

Natierlech ass dat e einfachen Beispill, an de Algorithmus brauche méi wäit grouss Datenproblematik wéi déi zwee Rekorder, déi hei gewisen ginn. Weider wäerte d'Prognosegelen e wahrscheinlech méi komplizéiert sinn, och Ënnerregeln, fir Attributdetailer ze erfëllen.

Als nächstes gëtt de Algorithmus e "Prévisiounsset" vun Daten unzefroen, fir sech ze analyséieren, awer dat ass net dem Prognosen-Attribut (oder Décisioun):

Predictor Daten
Numm Alter Geschlecht Joresakommes Kreditkart Offer
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

Dëse Prädiktor Daten hëllefen d'Genauegkeet vun der Prognoséierungsregeleg ze schätzen, an d'Regele ginn dann ugeschaaft bis de Progrofter d'Prognosen effektiv an nëtzlech ass.

Dag fir Dag Beispiller vun der Klassifikatioun

Klassifikatioun, an aner Datenbunnstechniken, ass hannert vill vun der allseetzlecher Erfahrung als Konsumenten.

Wiedere Prognosen kéinte d'Klassifikatioun benotzen fir ze mellen, ob de ganzen Dag sonneg oder sonneg wënnt. De medizinesche Beruff kann d'Gesondheetsproblemer analyséieren fir medizinesch Resultater virzehuelen. Eng Typ vun Klassifikatiounsmethod, Naive Bayesian, benotzt conditional Probabilitéit fir Spam Emails kategoriséieren. Aus Betrug Demektioun fir Produktangebote, d'Klassifikatioun ass hannert der Szenen all Dag Analyse Donnéeën a Prognosen produzéiert.