|
|||||||||||||||||||||||
![]() |
Spamfilter FAQFalsch Negativ erkannte E-MailsGelegentlich kommt die Frage auf, warum Mails nicht vom Spamfilter erkannt werden, obwohl sie doch offensichtlich Spam seien. Um das zu verstehen, muss man ein paar Dinge über die Funktionsweise eines Mailsystems und insbesondere eines Spamfilters wissen. Wie unterscheidet ein Mailsystem zwischen Ham (kein Spam) und Spam?Die Klassifizierung als Spam ist ein mehrschichtiger Prozess. Aktuell werden fast 1000 verschiedene Filter durchlaufen, die jeweils einen positiven oder negativen Beitrag zu einer Gesamtbewertung (spam-score) beisteuern. Liegt diese Gesamtbewertung über einem festgelegten Schwellwert (hier 5.0), wird die E-Mail als Spam markiert.
Diese einzelnen Filter prüfen z.B., ob für Spam typische Worte oder Textpassagen in der Mail enthalten sind, ob der sendende Server auf einer Blacklist Das hört sich zunächst einfach an, stellt aber in der Praxis ein Problem dar, da jeder Empfänger eine höchstpersönliche und sehr unterschiedliche Meinung darüber hat, welche Mails Spam sind und welche nicht.
Solange nicht mit persönlichen Filtern gearbeitet wird, müssen diese speziellen Anforderungen bei der Konfiguration eines Spamfilters in Einklang gebracht werden. Dieser "Kompromiss" ist einer der Punkte, die dazu führen, dass Mails nicht mit 100% Sicherheit als Spam oder Ham eingestuft werden können. Ein weiterer wichtiger Punkt ist, dass Computer Texte anders verarbeiten als Menschen. Typischerweise ist für Computer schwer, was für Menschen einfach ist und umgekehrt.
So kann ein Mensch aus dem Textbild der Mail und dem Zusammenhang des Textes Ein Mensch sieht auch schnell, dass mit Viagra und V!AGRA dasselbe gemeint ist - einem Computer muss man beibringen, dass 'i' und '!' von Spammern synonym verwendet werden. Das hilft dann aber noch lange nichts, wenn der Spammer einfach V_i_a_g_r_a schreibt. Der Computer kann keine Analogschlüsse ziehen. Er muss jede einzelne Schreibweise beigebracht bekommen - und die Spammer sind sehr kreativ beim Erfinden neuer Schreibweisen. Bis neue Schreibweisen entdeckt und Filter dafür programmiert sind vergeht Zeit, in denen Spams unerkannt durch den Filter kommen können.
Ein weiteres Kriterien von Spam ist, dass bestimmte Webseiten (URLs) beworben werden oder dass die E-Mail von einem Server kommt, der in der Vergangenheit Spam verschickt hat. Solche Informationen werden in sogenannten Realtime Blackhole Lists (RBL) gespeichert. Da es einige Zeit braucht, bis eine neue Sorte Spam oder eine neue IP-Adresse bei den RBL-Betreibern bekannt und in den RBLs verbreitet wird, gibt es ein Zeitfenster, in dem die Spamversender ihre E-Mails versenden können, ohne dass die entsprechenden Filter anschlagen.
Nicht zuletzt kommen immer wieder neue Sorten von Spam in Umlauf. So zum Beispiel Mitte 2007 in Form von pdf-Dateien
Weitere Informationen:
Frank Heydlauf, LF.net Netzwerksysteme GmbH
|