← Uz sākumu

Tech stuff again :)

2004. gada 27. aprīlī, 10 komentāri

Ir tāda štelle, kā SpamAssassin. Šī uzparikte cīnās ar spamu. It kā esmu to uzlicis uz sava pasta servera, lai filtrē uz nebēdu spamos un nespamos.

Ilgi mani prieki nebija. Reālais rezultāts jo nedēļu jo kļuva sliktāks. Bet nu neko. Lielu daļu tas nofiltrēja, tad nu lai jau stāv.

Kādu laiku es ar roku filtrēju tos spamus, kurus SpamAssassin nenoķēra. Nevis dzēsu, bet liku atsevišķā mapītē. Kad mapīte bija izaugusi, nolēmu apskatīt, vai tad nu tiešām neko nevar darīt lietas labā.

Izrādās, ka šim pašam SpamAssassin ir tāda nevainīga opcija - mācīties (izmantojot Bayesian algoritmu. T.n. - iebarojam tam kaudzi ar meiliem, pasakam, vai šī kaudze ir spams, vai nav un viņš iemācās pa savējam atpazīt līdzīgas vēstules. Es ar lielu entuziasmu uz visiem dažtūkstoš meiliem palaidu šo mācīšanos (izeksportēju meilus no The Bat!, iecēlu uz servera un tad aidā - sa-learn --spam spam/*.MSG).

Pēc kāda pailgāka laika process beidzās. Un, ticiet vai nē, man līdz pat šim brīdim ir ienākušies tikai trīs nenoķerti spami. Parasti pa nakti uzrodas kādi simts. Paskatījos noķerto sarakstu - nekas, ko varētu klasificēt kā nespamu tur nebija iekritis.

Nu jau izskatās, ka pat ir vērts cīnīties :)

Tu atbildi augstāk redzamajam komentāram. Atcelt

Gravatar bush

2004. gada 27. aprīlī, plkst. 07:50

ahā. tomēr paskatījies. tas nozīmē, ka cīņa pret spamu ir bijusi bezjēdzīga

Gravatar e-remit

2004. gada 27. aprīlī, plkst. 08:23

Vienīgā spamassassin nelaime ir tā, ka lielās sistēmās viš ir par monstrīgu - ja uz gatru vēstuli tiek veidots savs child process (kurš nav maziņš), bet pasta serverī mails ienāk vidēji reizi sekundē (tas ir vidēji), tad dažos dienas brīžos pasta serveris vienkārši pārslogojas.

Gravatar laacz

2004. gada 27. aprīlī, plkst. 08:26

e-remit: Vai tad spamd nav daemons? :) Tiesa, MailScanner'is jamo neprot juuzaat. Bet daemons kaa taads SpamAssasinam iraid.

Gravatar misame

2004. gada 27. aprīlī, plkst. 08:41

Aha, tā nu tas ir, ka spamassassina "pattern matching" metode diemžēl ir izrādījusies stipri neveiksmīga, jo var taču rakstīt via.gra, nevis viagra. Toties pret Beiesa filtriem šāda metode nedarbosies, ja vien pietiekami daudzi spameri sāks lietot šādu rakstību. Faktiski spamassassins bez bayesian filtra atbalsta netiek arī galā ar variantu, kad mailā ir ielikta milzīga bilde, kurā tad nu ir maziem burtiņiem sadrukāti visi sliktie teksti. Bayesian filtrs to tomēr spēj, jo vēstules teksts satur ļauno burtu virknīti "<img" , kas savukārt skaitās ļoti //spamīga//. Ja ir interese, iesaku palasīties pie vīra, kas to lietu apsmadzeņoja un izveidoja pirmo (manuprāt) Beiesa filtru - http://www.paulgraham.com/spam.html Un jā, ja vajag vēl spam paraugus, varu izeksportēt no bata kādus dažus tūkstošus gadu gaitā rūpīgi kolekcionēto spamu. Un vēl kādus dažus tūkstošus, kas man ir plaintextā pieejami. Jā, un btw, Laacz - pagaidām spamboti (vismaz tie, kam trial versijas tīklā pieejamas) tiešām nespēj no laacz.lv izvilināt nevienu prātīgu mailadresi. Izņemot janis@laacz, kura kaut kādā vienā articlī ierakstīta ;))

Gravatar e-remit

2004. gada 27. aprīlī, plkst. 10:16

Laacz varētu nodarboties ar spama kolekcionēšanu - visiem postiem uzrādīt adresi, piemēram meduspods@laacz , un visus mailus, kas pienāk uz šo adresi, automātiski publicēt, lai visi savus filtrus var papildināt. ;)

Gravatar e-remit

2004. gada 27. aprīlī, plkst. 10:19

laacz: spamd ir dēmons (ļaunais), bet uz katru e-mailu tas taisa child procesu. Nelielam pasta serverim tas pofig, bet lielam korporatīvam, kur daudz mailu staigā, tas diemžēl ir par traku, un lielā ātrumā spēj paņemt pat dažus GB atmiņas. :(

Gravatar Janekuss

2004. gada 27. aprīlī, plkst. 12:00

Bayesian ir labs. Izmantoju Outlooka pluginu (http://spambayes.sourceforge.net/). Filtrē pat ļoti labi, tomēr sākumposmā iesaku tomēr paskatīties, ko īsti viņš tur ir atzīmējis kā spamu. Gadās, ka kādu derīgu vēstuli uzskata par spamu, ja subjects ir angliski un ir attačments piemēram. Ietrenēju filtru uz 3000 spama vēstulēm un pašlaik saņemu apmēram 3 spama vēstules mēnesī + kādas 10 "Spam Suspects", no kurām puse ir spams, puse - nē.

Gravatar hQuse

2004. gada 29. aprīlī, plkst. 14:29

hm. Būsim zināt, paldies.

Es, savukārt padalīšos ar savu pieredzi - kā nenoslogot SpamAssassinu ar regulāru vīrusainu spammailu.

Tas eleganti realizējams, ja vien tiek izmantots postfix. - /etc/postfix.in/header_checks un /etc/postfix.in/body_checks

Tas viss ir regexpi un teikšu tā - kopš ieviesu šādu lietu, sūdmaili tiek rejectoti un pat līdz SpamAssassinam nenonāk, līdz ar to sistēma nav lieki noslogota, skanējot sūdmailus.

Gravatar Mulders

2004. gada 30. aprīlī, plkst. 16:06

eē veci... tagad palaidīsi garām visas labās iespējas nopelnīt miljonus, palielināt čibriku un nodzīt liekos kg :)

psveicu!