LF.net :: Spamfilter FAQ :: Internet Service Provider in Stuttgart

Falsch Negativ erkannte E-Mails

Gelegentlich kommt die Frage auf, warum Mails nicht vom Spamfilter erkannt werden, obwohl sie doch offensichtlich Spam seien.

Um das zu verstehen, muss man ein paar Dinge über die Funktionsweise eines Mailsystems und insbesondere eines Spamfilters wissen.

Wie unterscheidet ein Mailsystem zwischen Ham (kein Spam) und Spam?

Die Klassifizierung als Spam ist ein mehrschichtiger Prozess. Aktuell werden fast 1000 verschiedene Filter durchlaufen, die jeweils einen positiven oder negativen Beitrag zu einer Gesamtbewertung (spam-score) beisteuern. Liegt diese Gesamtbewertung über einem festgelegten Schwellwert (hier 5.0), wird die E-Mail als Spam markiert.

Beispiel

Content analysis details:   (5.5 points, 5.0 required)

 pts rule name              description
---- ---------------------- --------------------------------------------------
-1.8 ALL_TRUSTED            Passed through trusted hosts only via SMTP
 1.5 HTML_IMAGE_ONLY_20     BODY: HTML: images with 1600-2000 bytes of words
 ...

Diese einzelnen Filter prüfen z.B., ob für Spam typische Worte oder Textpassagen in der Mail enthalten sind, ob der sendende Server auf einer Blacklist (externer Link) steht oder ob in der Mail Links (URLs) stehen, die auf einer Blacklist stehen.

Das hört sich zunächst einfach an, stellt aber in der Praxis ein Problem dar, da jeder Empfänger eine höchstpersönliche und sehr unterschiedliche Meinung darüber hat, welche Mails Spam sind und welche nicht.

Mediziner z.B. würden sicher nicht erfreut sein, wenn alle Mails, die "sex" (engl. Geschlecht) oder "Viagra" (regulär handlbares Medikament) enthalten, als Spam markiert werden - Anleger sind an Aktien-Informationen interessiert - und sicherlich schreiben sich auch einige Benutzer schlüpfrige Mails, die nicht im Spamfilter hängen bleiben sollen.

Solange nicht mit persönlichen Filtern gearbeitet wird, müssen diese speziellen Anforderungen bei der Konfiguration eines Spamfilters in Einklang gebracht werden. Dieser "Kompromiss" ist einer der Punkte, die dazu führen, dass Mails nicht mit 100% Sicherheit als Spam oder Ham eingestuft werden können.

Ein weiterer wichtiger Punkt ist, dass Computer Texte anders verarbeiten als Menschen. Typischerweise ist für Computer schwer, was für Menschen einfach ist und umgekehrt.

Einen sprechenden Menschen zu verstehen ist für Menschen sehr einfach, für Computer sehr schwer. Auf einem Foto einen Menschen zu erkennen ist für uns einfach, egal ob die Person auf dem Foto gross, klein, alt oder ein Baby ist, egal ob sie steht, geht oder sitzt, ob von der Seite, oder von vorne aufgenommen, egal ob mit Hut oder Brille, Mantel oder kostümiert. Eine für aktuelle Computer kaum lösbare Aufgabe. Umgekehrt ist es für Computer ein Leichtes, selbst umfangreichste mathematische Berechnungen fehlerfrei und schnell auszuführen - was für Menschen schwer oder gar unmöglich ist.

So kann ein Mensch aus dem Textbild der Mail und dem Zusammenhang des Textes (externer Link) meist sehr einfach und schnell sagen, ob für ihn diese Mail Spam ist oder nicht. Aktuelle Antispamprogramme dagegen haben keinen Sinn für das sprachliche Umfeld eines Textes. Dadurch erkennen sie nicht, ob es sich bei einer Mail, in der 'kleiner Schwanz' steht um die Beschreibung eines Hunde-Welpens handelt oder um Werbung für potenzsteigernde Medikamente.

Ein Mensch sieht auch schnell, dass mit Viagra und V!AGRA dasselbe gemeint ist - einem Computer muss man beibringen, dass 'i' und '!' von Spammern synonym verwendet werden. Das hilft dann aber noch lange nichts, wenn der Spammer einfach V_i_a_g_r_a schreibt. Der Computer kann keine Analogschlüsse ziehen. Er muss jede einzelne Schreibweise beigebracht bekommen - und die Spammer sind sehr kreativ beim Erfinden neuer Schreibweisen. Bis neue Schreibweisen entdeckt und Filter dafür programmiert sind vergeht Zeit, in denen Spams unerkannt durch den Filter kommen können.

Beispiel

#1 V.i.a.g.r.a, 90 x 100mg 
10 Pills C..I..A.L.I.S + 10 Pills V`I-A`G-R`A! Two best ED
Subject: Viagra 100mg x 30 pills
Subject: All orders are accepted $0ma, Vi@Gra*
Subject: buy cheaper CIAlis, Vi@gra and other medications
Subject: V1aGR@: buy with us and you will save your money!

Ein weiteres Kriterien von Spam ist, dass bestimmte Webseiten (URLs) beworben werden oder dass die E-Mail von einem Server kommt, der in der Vergangenheit Spam verschickt hat. Solche Informationen werden in sogenannten Realtime Blackhole Lists (RBL) gespeichert. Da es einige Zeit braucht, bis eine neue Sorte Spam oder eine neue IP-Adresse bei den RBL-Betreibern bekannt und in den RBLs verbreitet wird, gibt es ein Zeitfenster, in dem die Spamversender ihre E-Mails versenden können, ohne dass die entsprechenden Filter anschlagen.

Nicht zuletzt kommen immer wieder neue Sorten von Spam in Umlauf. So zum Beispiel Mitte 2007 in Form von pdf-Dateien (Download PDF Datei) oder im Oktober 2007 als Audio-Datei (heise.de) (externer Link) . Solche "Neuentwicklungen" stellen die Programmierer der Antispam-Programme vor grosse Herausforderungen, dementsprechend wird viel Zeit benötigt, um wirksame Gegenmaßnahmen zu finden und umzusetzen.

Weitere Informationen:

Frank Heydlauf, LF.net Netzwerksysteme GmbH
$Id: spamfilter-faq.inc,v 1.4 2009/05/07 12:50:50 fernst Exp $