Wat Dir musst wëssen iwwert Bayesian Spam Filterung

by Heinz Tschabitscher

Wäert Dir erauszefannen, wéi Statistik hëllefe fir Är Inbox ze botzen

Bayesian Spamfilter berechtegt d'Wahrscheinlechkeet fir eng Spam ze sinn Spam baséiert op hirem Inhalt. Am Géigesaz zu den einfache Filteren vun ongerecht sinn, léiert de Bayesian Spamfilter vu Spam a vu gudder E-Mail, wat e ganz robusten, adaptéierten an effizient Anti-Spam-Approche erofzesetzt, deen am Beschten ka guer keng falsch Positives.

Wéi kennt Dir Junk Email Recognize?

Denkt un wéi Dir Spam erënnert . E klengen Bléck hält oft genuch. Dir wësst wat Spam ausmaacht a wësst wat Gutt Eicht aussäit.

D'Wahrscheinlechkeet vu Spam wéi gutt Geleeënheet ass ronderëm ... Null.

Scoring Content-Based Filters maachen net adäquat

Wär et net gutt, wann och automatesch Spamfilter esou funktionnéiert hunn?

Scoring vu contentbaséierten Spamfilter probéiere just dat. Si kucken no Wierder an aner Charakteristiken typesch fir Spam. All Charakteristescht Element ass e Score kritt, an e Spam-Score fir déi ganz Message ass aus den eenzelne Punkten berechent. E puer Scoutfilters fënnt och no Charakteristiken vun legitimen E-Mail, déi d'Final Score kritt.

De Buteurfilter Approche funktionnéiert, awer et huet och e puer Nodeeler:

D'Lëscht vun de Charakteristiken gëtt vum Spam (an der Gutt-Mail) gebaut fir d'Ingenieuren vum Filter. Fir eng gutt Iddi vum typesche Spam ze kréien, dee jidderengem kéint kréie kënnt, muss mailen bei honnerte Email Adressen gesammelt ginn. Dëst schwächt de Effizienz vun den Filters, besonnesch well d' Charakteristike vu gudde Post verschidden ass fir all Persoun , awer dëst gëtt net berücksichtegt.
D'Eegeschafte fir no Sich no méi oder manner steet am Steen . Wann d'Spammers d'Ustrengung maachen (a maacht hir Spam wéi gutt E-Mail op de Filter) adaptéieren, musst de Filtereechner manuell manipuléiere - eng méi grouss Effort.
D'Wuert un all Wuert ass méiglecherweis op enger gudder Schätzung baséiert, awer et ass ëmmer willkürlech. A wéi d'Lëscht vun den Eegeschafte ass et weder an d'Verännerlechkeet vum Spam am allgemengen a op d'Bedierfnesser vum individuellen Benotzer adaptéiert.

Bayesian Spam Filters Tweak selwer, Besser besser a besser

Bayesian Spamfilter sinn eng Zort Scrollen vun Inhalterfilter. Hir Approche geet mat de Problemer vun einfachen Scouten vu Spamfilter, awer et ass esou radikal. Well d'Schwächt vu Scrollfilter an der manuell gebauter Lëscht vun Charakteristiken a Scrollen ass, gëtt dës Lëscht eliminéiert.

An datt d'Bayesian Spamfilter d'Lëscht selwer bauen. Ideal begleet Dir mat engem (groen) Bunch Emails déi Dir als Spam klasséiert hutt an eng aner Rei vu gudde Post. D'Filtere kucken both op an analyséieren déi legitim E-Mail wéi och de Spam fir d'Wahrscheinlechkeet vun de verschiddene Charakteristike z'ënnerscheeden, déi am Spam erauskomm sinn an a gutt E-Mail.

Wéi e Bayesian Spam Filter eng E-Mail unhandelt

D'Charakteristike e Bayesian Spamfilter ka kucken:

d'Wierder am Kierper vun der Noriicht, natierlech an a
seng Header (Senderen a Message Paths , zum Beispill!), awer och
aner Aspekter wéi HTML / CSS Code (ähnlech Faarwen an aner Formateuren), oder souguer
Wuert Päeren, Sätze a
Meta-Informatioun (wou eng speziell Phrases exempt).

Wann e Wuert "Cartesian" zum Beispill nie an Spam erauskomm ass, mee oft an der legitimen E-Mail kritt Dir d'Wahrscheinlechkeet datt "Cartesian" Spam uginn ass nawell null. "Toner", op der anerer Säit, exklusiv a gesond, am Spam. "Toner" huet eng ganz héich Wahrscheinlechkeet fir am Spam ze gesinn, net vill ënnert 1 (100%).

Wann e neie Message kënnt, gëtt et de Bayesian Spamfilter analyséiert an d'Wahrscheinlechkeet vun der kompletter Message Spam gëtt mat den individuellen Eegeschafte berechent.

Assume eng Meldung enthält "kartesesch" an "Toner". Vun dësen Wierder eleng ass et nach net kloer, ob mir Spam oder Ehesch Mail hunn. Aner Charakteristiken hunn (hoffentlech a wahrscheinlech) eng Wahrscheinlechkeet uginn, déi de Filter erlaabt datt d'Noriicht entweder Spam oder Good Mail klassifizéieren.

Bayesian Spam Filtere kënnen automatesch léieren

Elo datt mir eng Klassifikatioun hunn, kann d'Botschaft benotzt ginn fir de Filter selwer weider ze trainéieren. An dësem Fall ass entweder d'Wahrscheinlechkeet vun "Kartesch" mat gudder E-Mail niddereg (wann d'Botschaft, déi "kartesesch" an "Toner" bezeechent gëtt) Spam genannt) oder d'Wahrscheinlechkeet vum "Toner" wat Spam ugeet.

Mat dëser automatesch adaptiven Technik kënnen de Bayesian Filter vun hirem eegene wéi och vum Entscheedunge vum Benotzer léieren (wann se d'Fehlgrenzung manuell manuell duerch d'Filteren korrigéiert). D'Adaptabilitéit vun der Bayesian Filtrier gëtt och sécher, si sinn am effizientesten fir den individuellen E-Mail Benotzer. Iwwerdeems déi meescht Leit Spam manner ähnlech Charakteristiken hunn, ass déi legitim Apost fir jiddereen ganz charakteristesch.

Wéi kann Spammers méi béisaaresch Filter hunn?

D'Charakteristiken vu legitimen E-Mail sinn esou wichteg wéi de Bayesesche Spamfilterprozess wéi de Spam. Wann d'Filtere speziell fir all Benotzer geschat ginn, wäerte Spammaueren nach méi härter Zäit um all (oder souguer de meeschte Leit) Spamfilter ufänken, an d'Filtere kënne bal all ugepasst Spammaen probéieren.

Spammers maachen et just gutt ausgebilte Bayesian Filters, wann se hir Spammessage perfekt maachen wéi déi normal E-Mail jidderee kann kréien.

Spammers schécken normalerweis keng normale Mailen. Loosst eis dat huelen, well dës Emailen net als Junk-Mail funktionnéieren. Also, d'Chancen si se net et maachen, wann normale, langweileg E-Mails sinn déi eenzeg Manéier fir et mat Spamfilter ze maachen.

Wann Spammers op haaptsächlech gewinnt gewéinleche Bléck Emails ubitt, gi mir awer nach vill Spam an eisem Inboxes erëm, an e Mail kann esou frustréiereg sinn wéi et an pre-Bayesian Deeg war (oder nach méi schlëmm). Et wäert och den Maart fir déi meeschte Spams ugedriwwen hunn, awer, a sou wäert och net laang sinn.

Strong Indikatoren Kann e Bayesian Spam Filter & Achilles & # 39; Fusioun

Eng Ausnahm ka sech fir Spameren erkannt ginn fir hir duerch Bayesian Filters och mat hirem gewéinleche Inhalt ze schaffen. Et ass an der Natur vun de Bayesian Statistiken, datt ee Wuert oder Charakteristik deen esou oft an der Gutt ervirst kann esou grouss sinn wéi all Message vun der Sich no Spam unzehuelen als Schäff vum Filter ze bewerten.

Wann Spammers e Wee fannen fir fir Äert Gefier-Good-Mail-Worte ze bestëmmen - mat HTML-Rettungsbeamten ze kucken fir ze kucken, wéi engen Noricht Dir opgemaach huet, zum Beispill - eng vun hinnen an eng Junk-Mail ka profitéieren, ausgebilten Bayesian Filter.

De John Graham-Cumming huet dat verspriechen, andeems zwee zwee Bayesian Filters géint eng aner maachen, de "schlechten" Eng Adaptatioun vun deem d'Botschaften duerch den "gudden" Filter erreechen. Hien seet, datt et funktionnéiert, obwuel de Prozess ze laang an d'Konsequenzen ass. Mir denken net datt mir e groussen Deel vun dësem geschéien, op mannst net op enger grousser Skala, an net op d'E-Mail-Charakteristiken personaliséiert ginn. Spammers kënne (probéiert) e puer Schlësselwierder fir Organisatiounen kennen (eppes wéi "Almaden" fir e puer Leit bei IBM vläicht?).

Normalerweis gëtt Spam ëmmer (ofstierend) wéi normal Regular oder nett Spam gemaach.

D'Bottom Line: Bayesian Filtering & Stärke kann seng Schwäche sinn

Bayesian Spamfilter sinn onbestëmmeg Filteren déi:

Sinn speziell geschat fir de Spam un engem e-Spam un engem e gëllenen Email ze erkennen an ze héich Effektiver a schwéier z'erweideren fir Spameren ze adaptéieren.
ka weider an ouni vill Inspekter oder manuelle Analyse adaptéieren an déi neiste Tricks vum Spammer.
Nëmme berücksichtegt den individuellen Benotzernumm an der Vergaangenheet an hunn e ganz nidderegen Taux vu falschen Positiven .
Leider, wann dat blannem Vertrauen an de Bayesian Anti-Spamfilter verursacht, mécht de gelegentlëch Feeler nach méi eescht . Déi negativ Auswierkunge vu falschem Negativen (Spam, déi genau wéi normale Mail kuckt) huet de Potenzial fir d'Benotzer ze stéieren an frustréieren.