Cad is gá duit a fháil faoi Scagadh Spam Bayesian

by Heinz Tschabitscher

Faigh amach cén chaoi a chuidíonn staitisticí do bhosca glan

Ríomhaíonn scagairí spam Bayesian an dóchúlacht go bhfuil teachtaireacht spam bunaithe ar a chuid ábhar. Murab ionann agus scagairí simplí-bhunaithe, foghlaimíonn scagadh spam Bayesian ó spam agus ó phost ríomhphoist, rud a fhágann go bhfuil cur chuige frith-spam an-láidir, oiriúnaitheach agus éifeachtach ann, rud a fhágann gurb é an rud is fearr ar fad go dtiocfaidh tuairimí bréagacha ar ais.

Cén chaoi a n-aithníonn tú Ríomhphost Junk?

Smaoinigh ar conas a bhraitheann tú spam . Is minic a bhíonn sracfhéachaint go leor. Tá a fhios agat cad é an spam is cosúil, agus tá a fhios agat cad is maith leis an bpost.

Is é an dóchúlacht go bhfuil spam cosúil le post maith timpeall ... nialas.

Ní Scagairí Ábhar-Bhunaithe Scórála a Chur in oiriúint

Nach mbeadh sé iontach má d'oibrigh scagairí spam uathoibríoch mar sin freisin?

Bain triail as scagairí spam ábharbhunaithe a scóráil go díreach. Féach siad ar fhocail agus ar shaintréithe eile a bhaineann le spam. Cuirtear scór ar gach gné tréithiúil, agus ríomhtar scór spam don teachtaireacht ar fad ó na scóir aonair. Breathnaíonn roinnt scagairí scór le saintréithe poist dhlisteanacha, agus scór deiridh na teachtaireachta á ísliú.

Oibríonn an cur chuige scagairí scórála, ach tá roinnt míbhuntáistí ann freisin:

Tá liosta na dtréithe tógtha ón spam (agus an dea-phost) atá ar fáil d'innealtóirí an scagaire. Chun tuiscint mhaith a fháil ar an spam is gnách d'fhéadfadh duine ar bith a fháil, caithfear an ríomhphost a bhailiú ag na céadta seoltaí ríomhphoist. Laghdaíonn sé seo éifeachtacht na scagairí, go háirithe toisc go mbeidh saintréithe an phoist ríomhphoist difriúil do gach duine , ach ní chuirtear san áireamh é seo.
Tá na saintréithe atá le lorg níos mó nó níos lú leagtha i gcloch . Má dhéanann an spammers an t-iarracht a oiriúnú (agus an spam a dhéanamh cosúil le dea-phost chuig na scagairí), ní mór na tréithe scagtha a bheith tweaked de láimh - iarracht níos mó fós.
Is dócha gurb é an scór a shanntar do gach focal bunaithe ar mheastachán maith, ach tá sé fós treallach. Agus cosúil leis an liosta de na saintréithe, ní chuireann sé in oiriúint do shaol athraitheach an spam i gcoitinne ná ar riachtanais úsáideora aonair.

Scagairí Spam Bayesian Tweak féin, a bheith níos fearr agus níos fearr

Tá scagairí spam Bayesian mar chineál scagairí atá bunaithe ar ábhar, chomh maith. Bíonn a gcur chuige ar shiúl leis na fadhbanna a bhaineann le scagairí spam simplí a scóráil, áfach, agus déanann sé sin go mór. Ós rud é go bhfuil laige na scagairí scórála sa liosta tréithe agus a gcuid scóir de láimh, cuirtear deireadh leis an liosta seo.

Ina áit sin, déanann na scagairí spam Bayesian an liosta féin a thógáil. Go hidéalach, tosaíonn tú le bunchlár ríomhphoist (mór) a d'ainmnigh tú mar spam, agus ceann eile de phost maith. Breathnaíonn na scagairí ar an bpost dlisteanach chomh maith leis an spam agus déan anailís ar an dóchúlacht go bhfuil saintréithe éagsúla le feiceáil sa spam agus i bpost ríomhphoist araon.

Conas a Scrúdaíonn Scagaire Spam Bayesian Ríomhphost

Is féidir leis na tréithe a bhaineann le scagaire spam Bayesian breathnú orthu:

na focail i gcomhlacht na teachtaireachta, ar ndóigh, agus
a cheannteidil (seoltaí agus bealaí teachtaireachta , mar shampla!), ach freisin
gnéithe eile cosúil le cód HTML / CSS (cosúil le dathanna agus formáidiú eile), nó fiú
péirí focal, frásaí agus
meta-eolas (i gcás ina bhfeictear frása áirithe, mar shampla).

Más rud é nach dtagann focal "Cartesian" mar shampla riamh i spam ach go minic sa ríomhphost dlisteanach a gheobhaidh tú, an dóchúlacht go léiríonn "Cartesian" go bhfuil spam in aice le nialas. Is cosúil go bhfuil "Toner", ar an láimh eile, go heisiatach, agus go minic, i spam. Tá dóchúlacht an-ard ag "Toner" a bheith le fáil i spam, ní mór faoi bhun 1 (100%).

Nuair a thagann teachtaireacht nua, déanann an scagaire spam Bayesian anailís air, agus déantar an dóchúlacht go bhfuil an teachtaireacht iomlán á spam á ríomh ag baint úsáide as na saintréithe aonair.

Glac le teachtaireacht go bhfuil an dá "Cartesian" agus "toner". Ón bhfocail seo amháin níl sé soiléir fós an bhfuil spam nó post ríomhphoist againn. Beidh na saintréithe eile (dóchasach agus is dócha) in ann dóchúlacht a ligeann don scagaire an teachtaireacht a rangú mar spam nó post maith.

Is féidir le Scagairí Spam Bayesian Foghlaim go huathoibríoch

Anois go bhfuil aicmiú againn, is féidir an teachtaireacht a úsáid chun an scagaire féin a oiliúint níos faide. Sa chás seo, déantar an dóchúlacht go bhfuil "Cartesian" ag léiriú ríomhphoist íslithe (má aimsítear gur spam an teachtaireacht ina bhfuil "Cartesian" agus "toner"), nó ní mór an dóchúlacht "toner" a léiríonn spam a athscrúdú.

Ag baint úsáide as an teicníc uathoibríoch-oiriúnaitheach seo, is féidir le scagairí Bayesian foghlaim óna gcinntí féin agus ó chinntí an úsáideora (má dhéanann sí scriosadh de láimh ar na scagairí). Déanann inoiriúnaitheacht scagadh Bayesian cinnte go bhfuil siad an-éifeachtach don úsáideoir ríomhphoist aonair. Cé go bhféadfadh tréithe comhchosúla a bheith ag spam an chuid is mó daoine, tá an ríomhphost dlisteanach difriúil go sonrach do gach duine.

Conas is féidir le Spammers Scagairí Bayesian a fháil?

Tá tréithe an phoist dhlisteanacha chomh tábhachtach céanna don phróiseas scagála spam Bayesian mar go bhfuil an spam. Má tá na scagairí á n-oiliúint go sonrach do gach úsáideoir, beidh am níos deacra ag spammers ag obair ar scagairí spam gach duine (nó fiú an chuid is mó daoine), agus is féidir leis na scagairí a oiriúnú chun iarracht a dhéanamh ar gach spammers gach rud.

Ní dhéanfaidh spammers ach scagairí Bayesian a ndearnadh dea-oilte orthu más rud é go ndéanann siad a dteachtaireachtaí spam cosúil go breá cosúil leis an ngnáthphost ríomhphoist a d'fhéadfadh gach duine a fháil.

De ghnáth ní seoltar spammers ríomhphoist mar sin de ghnáth. Lig dúinn glacadh leis gurb é seo toisc nach n-oibríonn na ríomhphoist seo mar r-phost junk. Mar sin, níl seans ann nach mbeidh siad ag déanamh é nuair is gnáthphost ríomhphoist an t-aon bhealach chun scagairí spam a dhéanamh.

Má aistrítear spammers chuig ríomhphoist den chuid is mó gnáthfhéach, áfach, feicfimid go leor spam inár mBoscaí Isteach arís, agus d'fhéadfadh r-phost a bheith chomh frustrach mar a bhí sé i laethanta réamh-Bayesian (nó níos measa fós). Déanfaidh sé an margadh mar gheall ar an chuid is mó de na cineálacha spam a scriosadh, áfach, agus ní rachaidh sé ar feadh tréimhse fada.

Is féidir le táscairí láidre a bheith ina Scagairí Spam Bayesian & Achilles & # 39; SÚil

Is féidir eisceacht amháin a bheith ann do spammers a gcuid oibre a dhéanamh trí scagairí Bayesian fiú lena n-ábhar is gnách. Tá sé i nádúr na staitisticí Bayesian gur féidir le focal nó tréith amháin a bhíonn le feiceáil go minic i bpost ríomhphoist a bheith chomh suntasach maidir le teachtaireacht ar bith a sheachaint ó spam cosúil leis an scagaire a mheas mar aidhm.

Má fhaigheann spammers bealach chun na focail ríomhphoist ríomhphoist cinnte a chinneadh - trí fháltais aisfhillte HTML a úsáid chun na teachtaireachtaí a d'oscail tú a fheiceáil, mar shampla-, is féidir leo ceann acu a áireamh i bpost ríomhphoist agus go mbainfidh tú amach tú fiú trí dhea- scagaire Bayesian oilte.

Rinne John Graham-Cumming iarracht seo trí ligean do dhá scagairí Bayesian a bheith ag obair i gcoinne a chéile, rud a chuireann an "droch" ar fáil lena n-áirítear na teachtaireachtaí a fháil tríd an scagaire "maith". Deir sé go n-oibríonn sé, cé go bhfuil an próiseas an-íditheach agus casta. Ní dóigh linn go bhfeicfimid mórán de seo ar siúl, ar a laghad nach bhfuil ar scála mór, agus ní bheidh sé oiriúnaithe do shaintréithe ríomhphoist na ndaoine aonair. Féadfaidh spammers roinnt eochairfhocail d'eagraíochtaí (rud éigin cosúil le "Almaden" a chur in iúl do roinnt daoine ag IBM b'fhéidir) ina ionad.

De ghnáth, beidh spam i gcónaí (go suntasach) ó phost rialta nó ní bheidh sé ina spam, áfach.

An Líne Bottom: Is féidir le Neartú Scagthacháin Bayesian a bheith ina Dhliteanas

Tá scagairí spam Bayesian scagairí atá bunaithe ar ábhar a leanas:

oilte go sonrach chun spam agus post ríomhphoist an úsáideora ríomhphoist aonair a aithint , rud a chiallaíonn go bhfuil siad an-éifeachtach agus deacair a chur in oiriúint do spammers.
is féidir go leanúnach agus gan go leor iarracht nó anailís láimhe a oiriúnú do na cleasanna is déanaí spammers.
cuir ríomhphost maith an úsáideora aonair san áireamh agus tá ráta an - íseal de bhreiseáin bhréagach agat .
Ar an drochuair, má tharlaíonn sé seo muinín dall i scagairí frith-spam Bayesian, cuireann sé botún ó am go chéile fiú níos tromchúisí . D'fhéadfadh sé go bhféadfadh úsáideoirí suaitheadh agus frustrachas a bheith ag an droch- éifeacht bréagach (spam a bhíonn cosúil le ríomhphost rialta).