Fast jeder Internetnutzer kennt das Problem Spam aus eigener Erfahrung. Seit dem 2. Quartal 2006 steigt die Anzahl der Spam-Mails wieder kontinuierlich an. Der deutlichste Anstieg erfolgte in den letzten drei Monaten. (1) Über das Jahr 2006 erhielt jeder Internetnutzer durchschnittlich 6 Spam-Mails pro Tag. Der Anteil von Spam am gesamten Mailaufkommen liegt je nach Quelle zwischen unter 50% und über 90%. Wer wie viel Spam bekommt, hängt auch davon ab, wo man wohnt und in welcher Branche man arbeitet. In Japan ist der Anteil an Spam mehr als die Hälfte geringer als in Israel und den USA. Beschäftigte in sehr großen Firmen erhalten nur etwa 1/3 der Anzahl an Spam-Mails, die ein Angestellter einer kleinen Firma erhält. Bildungseinrichtungen und produzierende Firmen erhalten 50% mehr Spam als etwa Finanzdienstleister und Behörden. (2)
Etwa 85% aller Spam-Mails werden per Botnetz verschickt. Weltweit werden täglich 500.000 Rechner mit Backdoors infiziert und in Spamschleudern verwandelt. Zwischen 6 und 8 Millionen Zombies sind zu jeder Zeit aktiv und sorgen für die unerwünschte Flut. Ein prototypisches Botnetz versendet etwa 160 Millionen Nachrichten in rund 2 Stunden. Die Kosten für den Versand liegen bei wenigen Hundert US-Dollar. Selbst mit geringsten Rücklaufquoten rechnet sich der Versand und Spam ist und bleibt ein lukratives Geschäft.
Wie man sich vor Spam schützt
Für die Erkennung von Spam-Mails gibt es drei wichtige Kriterien:
- Absender und dessen Reputation. Hier werden häufig Realtime Blocklists (RBL) eingesetzt. Angesichts der großen Anzahl täglich neuer Spam-Zombies sind RBLs kaum noch auf dem neuesten Stand zu halten.
- Inhalt und die Eigenschaften der Nachricht inkl. des URLs auf eine externe Webseite und der HTML-Struktur
- Datenbanken mit einer oder mehreren Prüfsummen (Hashes) der Mail. Diesen Ansatz verfolgt G Data mit seiner OutbreakShield-Technologie.
Die meisten Anti-Spam-Lösungen enthalten eine Kombination aus den ersten beiden Kriterien. Prüfsummen werden hauptsächlich bei professionellen Service-Providern und deren Appliances berücksichtigt. In den meisten Consumer-Produkten fehlt ein Prüfsummenverfahren, G Data Internet Security mit seinem OutbreakShield bildet hier eine Ausnahme.
Neue Herausforderung Bilder-Spam
Im Rüstungsrennen um die Erkennung von Spam einerseits und die Täuschung von Spamfiltern auf der anderen Seite wurde unlängst eine neue Runde eingeläutet. Ende 2005 tauchten die ersten Spam-Mails mit Bildern auf. Seitdem ist ihr Anteil am gesamten Spamaufkommen um mehr als das dreifache gestiegen. Im Jahresmittel von 2006 lag der Anteil an Image-Spam bei ca. 35%. Im November 2006 erreichte er schon über 45%. (3)Die Spammer setzen nun leistungsfähige Programmbibliotheken ein, mit deren Hilfe Texte in Grafiken umgewandelt werden. Textbasierte Spamfilter sind gegen diese Technik vollkommen wehrlos - hier müssen anderen Verfahren zum Einsatz kommen.
Wie man Bilder-Spam erkennen könnte
Wenn man von einem normalen Brief oder einer normalen Webseite ausgeht, dann steht der Text immer in einem hohen Kontrast zu einem ziemlich monotonen Hintergrund. Diese Eigenschaft von Texten kann man durch einfache Analysen erfassen. Solche Bilder erzielen hohe Kompressionsraten, wenn sie als GIF, JPG oder PNG abgespeichert werden. Alleine daran könnte man sie erkennen. Ein Histogramm ist eine einfach durchzuführenden Analyse der Farbverteilung eines Bildes. Sie liefert genauere Ergebnisse, mit deren Hilfe man einfache Texte in diesem Format erkennen könnte.
Eine weitere Eigenschaft von Texten ist, dass sie in einer Linie verlaufen. Mit einer Bildanalyse könnten die Fluchtpunkte ermittelt werden, um ein Bild als Text zu identifizieren. Die Bilder in Abb. 1a und 1b mit ihrem zufällig variierten Hintergrund, den bunten Rändern und den in Wellenlinien angeordneten Text machen diese Ansätze wirkungslos.
Eine Texterkennung ist zwar sehr rechen- und ressourcenintensiv, sie hat aber den Vorteil, dass die Ergebnisse wieder an die textbasierten Analysen geleitet werden können. Es gibt aber etliche Ansätze um eine Texterkennung zu erschweren. Der erste und simpelste Weg war die Verwendung von exotischen Zeichensätzen. Texterkenner sind auf die Standard-Zeichensätze ausgelegt. Mit weniger gängigen Zeichensätzen - insbesondere wenn sie verschnörkelt sind - haben sie Probleme.
Die aus einigen Foren bekannten Captchas enthalten Kratzer, die den Text verunstalten und so die Texterkennung unterlaufen. Diese Technik wird auch von Spammern genutzt. Die von Bild zu Bild verschieden platzierten Kratzer sollen eine automatische Analyse verhindern.
Eine weitere Technik, die angewendet wird, um die Texterkennung zu unterbinden, besteht darin ein Bild in viele Streifen, Blöcke oder Ebenen zu zerlegen. Die einzelnen Komponenten sind (ziemlich) unleserlich. Die Bilder lassen sich dann entweder als animiertes GIF oder per HTML-Struktur wieder so zusammensetzen, dass der Inhalt sichtbar wird. (vgl. Abb. 2)
Was wirklich hilft
Sind wir nun Spam hilflos ausgeliefert? Noch nicht. Es gibt noch eine Möglichkeit, um Spam unabhängig vom Inhalt der E-Mail zu erkennen. Sie basiert auf der Verbreitung von E-Mails und den daraus ableitbaren örtlichen und zeitlichen Verbreitungsmustern.Diesen Ansatz verfolgt der G Data OutbreakShield. Wenn man ausreichend viele E-Mails erfasst, kann man anhand von deren Prüfsummen (Hashes) erkennen, welche E-Mail wie oft auftritt und wo sie herkommt. Diese Informationen werden an zentraler Stelle ausgewertet und für häufig auftretende E-Mails werden dann Verbreitungsmuster berechnet. Anhand der Verbreitungsmuster kann eine E-Mail gegebenenfalls als Spam klassifiziert werden. Je nachdem wie eine Spam-Mail verschickt wird, können unterschiedliche Verbreitungsmuster auftreten.
G Data OutbreakShield berücksichtigt die Daten von mehr als 50 Millionen Postfächern in über 100 Ländern und hat somit eine solide Grundlage für die Berechnung von Verbreitungsmustern.
All dies geschieht vollautomatisch und in Echtzeit. Nach wenigen Minuten - oft schon nach Sekunden - wird eine Spam-Mail in der Datenbank gekennzeichnet. Trifft eine neue E-Mail ein, wird die Prüfsumme für die E-Mail berechnet und in der Datenbank nachgefragt und für die Prüfsumme eine Klassifizierung zurückgegeben.
Der Vorteil dieses Ansatzes ist, dass er völlig unabhängig vom Inhalt der Nachricht ist. Der Inhalt ist nur für die Berechnung der Prüfsumme relevant. Alle anderen Täuschungsmanöver, die im Abschnitt über Inhaltsfilter genannt wurden sind irrelevant. Auch Bilder-Spam kann so wirkungsvoll erkannt werden.
(1) Postini announces Top 5 2007 Messaging Security Predictions: email spam becomes front burner issue a gain in the new year. Press release Dez. 6. 2006. http://www.postini.com/news_events/pr/pr120606.php
(2) Message Labs Intelligence Report November 2006. S. 5f
(3) Commtouch: 2006 Spam Trends Report: Year of the Zombies, www.commtouch.com, 2006






1/2012
8/2011
7/2011


Dr. Eric Scherer ist Geschäftsführer des anbieterunabhängigen Beratungs- und Marktforschungsunternehmens i2s. Er gilt als einer der führenden ERP-Experten und ist Initiator der ERP-Zufriedenheitsstudie. 