Lade Inhalt...

Spam-Filter - Mechanismen und Algorithmen, Chancen und Gefahren: Einführung Spambekämpfung

©2013 Bachelorarbeit 44 Seiten

Zusammenfassung

Die E-Mail ist bis heute der wichtigste und am meisten genutzte Kommunikationsdienst im World Wide Web. Bis Ende des Jahres 2012 rechnete man mit etwa 3,3 Milliarden aktiven E-Mail Konten weltweit. Doch nicht nur die Anzahl von E-Mail- Konten stieg seit dem Versenden der ersten E-Mail 1971 durch Ray Tomlinson, der als Erfinder der E-Mail gilt. Auch die Zahl von unerwünschten Nachrichten, wie z.B. Spam, sind in den letzten Jahrzehnten weiter gestiegen.
Für kleine bzw. mittlere Unternehmen stellt sich die Frage, welche Möglichkeiten zur Filterung von Spam derzeit verfügbar sind und wie hoch die Chancen sind, die eigenen Mail-Boxen vor den Spamfluten zu schützen. Spamfilter kontrollieren eingehende E-Mails auf Merkmale typischer Spam-Mitteilungen. Sie sind jedoch nur so gut, wie die Filtermechanik, die zum Einsatz kommt. Durch eine Einführung in diese Thematik und durch Vergleiche der unterschiedlichen Mechaniken, soll ermöglicht werden eine grundlegende Aussage über die Effizienz von Anti-Spam-Methoden zu tätigen.

Leseprobe

Inhaltsverzeichnis


Abbildungsverzeichnis
1.1
Spam-Aufkommen Oktober und November 2012. (Quelle: Eleven
Research) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2.1
Aufbau einer E-Mail. Der Aufbau und die Reihenfolge ist in RFC 2822
festgelegt. (de.wikipedia.org) . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
E-Mail-Übertragung. (eigene Abb.) . . . . . . . . . . . . . . . . . . . .
6
2.3
SMTP Handshake. (eigene Abb.) . . . . . . . . . . . . . . . . . . . . .
8
3.1
Schematischer Aufbau eines ANN. (eigene Abb.) . . . . . . . . . . . .
19
3.2
Schematischer Ablauf in einem Bayes-Filter. (eigene Abb.) . . . . . .
20
3.3
Beispiel Kstar Algorithmus. (eigene Abb.) . . . . . . . . . . . . . . . .
21
4.1
ROC-Kurve der Ergebnisse (Quelle: Online Supervised Spam Filter
Evaluation, Cormack) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25

Abkürzungsverzeichnis
Abkürzung
Beschreibung
ANN
Artificial Neural Network
ARPANET
Advanced Research Projects Agency Network
DNS
Domain Name System
E-Mail
Electronic Mail
HTTP
Hypertext Transfer Protocol
IMAP
Internet Message Access Protocol
IP
Internet Protocol
K*
KStar
MDA
Mail Delivery Agent
MTA
Mail Transfer Agent
MUA
Mail User Agent
POP3
Post Office Protocol Version 3
SPAM
Spiced Ham
SMTP
Simple Mail Transfer Protocol
UBE
Unsolicited Bulk E-Mail
UCE
Unsolicited Commercial E-Mail

Kurzfassung
Diese Bachelorarbeit soll als Hilfestellung zum Thema Spam und Spam-Bekämpfung
fungieren. Es ist beabsichtigt, dass diese Arbeit Grundkenntnisse vermittelt, um die
Infrastruktur in z.B. kleinen und mittleren Unternehmen vor Spam zu schützen.
In dieser Arbeit werden Grundkenntnisse zum Thema Spam und E-Mail-Verkehr im
Internet vermittelt. Des Weiteren werden Einblicke in unterschiedliche Konzepte zur
Spam-Bekämpfung gegeben. Auf die Auswirkungen von Spam und die Wirtschaft
wurde ebenfalls eingegangen. Die Methoden werden miteinander Verglichen, mit
Hilfe von Studien und einer umfangreichen Recherche werden Aussagen zum
Thema Effizienz der einzelnen Methoden getroffen.
In der Schlussfolgerung wird erläutert, dass die Beste Möglichkeit um Spam effizient
zu filtern, eine Kombination der vorgestellten Methoden ist. Eine weitere Erkenntnis
ist auch, dass man als Zuständiger für den Schutz vor Spam immer über aktuelle
Trends informiert sein sollte.
Darüber hinaus werden in einem kurzen Exkurs, am Ende dieser Arbeit, weitere
Möglichkeiten zur präventiven Spam-Bekämpfung angeführt.

Executive Summary
This thesis, with the title Spam Filters: Mechanics and Algorithms, Chances and
Risks, will serve as a guide on spam and spam control. It is intended that this work
will introduce the basics for protecting infrastructure in such as small and medium
firms against spam.
In this bachelor thesis a basic knowledge about spam and e-mail traffic on the
internet are communicated. Further insights to different approaches of fighting
spam are given. The impact of spam on the economy was also discussed. The
methods are compared with each other and with the help of studies and extensive
research statements on efficiency of each method are made.
It is explained in the conclusion that the best way to filter spam effectively, is a
combination of the mentioned methods. Another realization is that one who is
responsible for spam protection, should always be informed about current trends.
Moreover, in a short excursion at the end of this thesis, some opportunities for
preventive spam countering are adduced.

1 Einleitung
Die E-Mail ist bis heute der wichtigste und am meisten genutzte Kommunikations-
dienst im World Wide Web. Bis Ende des Jahres 2012 rechnete man mit etwa 3,3
Milliarden aktiven E-Mail Konten weltweit.
1
Doch nicht nur die Anzahl von E-Mail-
Konten stieg seit dem Versenden der ersten E-Mail 1971 durch Ray Tomlinson, der
als Erfinder der E-Mail gilt.
2
Auch die Zahl von unerwünschten Nachrichten, wie
z.B. Spam, sind in den letzten Jahrzehnten weiter gestiegen. Wie in Abbildung 1.1 zu
Abbildung 1.1: Spam-Aufkommen Oktober und November 2012. (Quelle: Eleven
Research)
erkennen ist, so ist der Spamanteil aller weltweit versendeten E-Mails schwankend,
jedoch bleibt der Spamanteil durchschnittlich bei 25%. Durch die Entwicklung neuer
Filtermethoden und effektiverer Algorithmen, kann Spam immer besser aus dem
E-Mailverkehr gezogen werden.
Für kleine bzw. mittlere Unternehmen stellt sich die Frage, welche Möglichkeiten
1
vgl. Radicati, 2012, S.2
2
vgl. Tomlinson, 2013
1

1 Einleitung
zur Filterung von Spam derzeit verfügbar sind und wie hoch die Chancen sind, die
eigenen Mail-Boxen vor den Spamfluten zu schützen. Spamfilter kontrollieren ein-
gehende E-Mails auf Merkmale typischer Spam-Mitteilungen. Sie sind jedoch nur so
gut, wie die Filtermechanik, die zum Einsatz kommt. Durch eine Einführung in diese
Thematik und durch Vergleiche der unterschiedlichen Mechaniken, soll ermöglicht
werden eine grundlegende Aussage über die Effizienz von Anti-Spam-Methoden zu
tätigen.
1.1 Gliederung
In dieser Arbeit werden im ersten Teil Grundbegriffe rund um das Thema Spam
und E-Mail erklärt. Nach einer kurzen Darlegung der Spam-Problematik, folgt
eine Auflistung und Einführung der gängigsten Anti-Spam-Mechanismen und
Algorithmen, die in Spamfilter zum Einsatz kommen.
Die dadurch gewonnenen Erkenntnisse und Ergebnisse der Vergleiche werden im
vierten Teil der Arbeit aufbereitet und veranschaulicht. Zum Schluss werden die
gesammelten Erkenntnisse in Form eines Fazits erläutert.
1.2 Ziel
Es soll gezeigt werden, wie wirkungsvoll unterschiedliche Anti-Spam Lösungen ar-
beiten und wie sie sich technisch voneinander unterscheiden. Dadurch lassen sich die
unterschiedlichen Mechanismen identifizieren, die sinnvoll bis sogar unverzichtbar
zur Spambekämpfung sind. Durch das Ziel lässt sich die folgende Forschungsfragen
ableiten:
Welche Anti-Spam Lösungen gibt es derzeit auf dem Markt und wie unterscheiden
sie sich in ihrer Methodik bzw. in ihrer Effektivität der Spambekämpfung? Welche
Methoden versprechen den bestmöglichen Schutz vor Spam?
2

1 Einleitung
1.3 Stand der Forschung
Zum heutigen Zeitpunkt ist die Forschung hinsichtlich der Entwicklung von Spam
erkennenden Methoden recht weit fortgeschritten. Wie in dieser Arbeit dargestellt,
basieren die meisten Spamfilter auf autodidaktischen Algorithmen, die selbststän-
dig Spam erkennen. Eine Abwanderung von Spam im E-Mailverkehr hin zu den
Sozialen Plattformen, wie Facebook
3
und Twitter
4
, ist aber deutlich zu erkennen.
5
Dadurch ergeben sich neue Möglichkeiten für Spammer, wie z.B. die Nutzung von
Apps und der Folgen-Funktion auf Twitter.
Durch diese Tatsache verlagert sich das Spammen auf diesen Bereich und die Wei-
terentwicklung der Spam-Bekämpfung im E-Mailverkehr scheint ihren Höhepunkt
bereits überschritten zu haben.
6
3
Facebook ist ein kommerzielles, soziales Netzwerk
4
Twitter ist ein soziales Echtzeit-Informationsnetzwerk
5
vgl. Stringhini et al., 2010
6
vgl. Potdar et al., 2012
3

2 Grundlagen
2.1 E-Mail
Im Allgemeinen ist eine E-Mail (Electronic Mail) eine in Computernetzwerken
auf elektronischem Weg übermittelte Nachricht. Im Jahre 1982 wurde im RFC 822
das Versenden von Textnachrichten innerhalb des ARPANET (Advanced Research
Projects Agency Network), dem Vorläufer des Internets, erstmals spezifiziert.
1
Im
Laufe der Jahre und des stetigen Wachstums der Computernetzwerke wurde auch
der E-Mail Standard um zahlreiche Funktionen erweitert. Die Möglichkeit Anhänge
beliebiger Datei-Typen und z.B. HTML-E-Mails zu versenden ist in der RFC 2822
von 2001 festgehalten.
2
RFC 5322, das RFC 822 und RFC 2822 ersetzt und zusammenfasst, spezifiziert den
derzeitigen Standard des Internet Message Format bzw. der E-Mail.
3
2.2 Aufbau einer E-Mail
Die E-Mail ist im Wesentlichen in Kopf (engl.: header), Inhalt (engl.: body) und
Unterschrift (engl.: signature) gliederbar. Wie aus dem Beispiel in Abbildung 2.1 auf
Seite 5
4
hervorgeht, besteht eine E-Mail, aus einer Vielzahl an Informationen.
1
vgl. Mockapetris, 1983
2
vgl. Resnick, 2001
3
vgl. Resnick, 2008
4
vgl. wik, 2013
4

2 Grundlagen
Abbildung 2.1: Aufbau einer E-Mail.
Der Aufbau und die Reihenfolge ist in RFC 2822 festgelegt. (de.wikipedia.org)
Der Nutzer sieht nur einen kleinen Teil dieser Informationen, da die meisten E-Mail-
Programme nur das Wesentliche anzeigen (blau hinterlegt). Die Header-Informationen
(orange hinterlegt) sind in der Regel ausgeblendet, können aber optional angezeigt
werden, was aber wiederum vom Funktionsumfang des E-Mail-Programms ab-
hängt. Der Inhalt (grau hinterlegt) beinhaltet die eigentlichen Informationen der
Nachricht. Bemerkenswert ist, dass die erste Zeile, der s.g. Briefumschlag-Sender
(engl.: envelope sender) kein Teil des Headers ist. Der Envelope Sender beinhaltet
die E-Mail-Adresse des Absenders und den Zeitpunkt des Absendens und wird
während des SMTP-Handshakes (Simple Mail Transfer Protocol)
5
als Parameter
übermittelt. Erst wenn die E-Mail im mbox-Format
6
gespeichert wird, so steht der
5
vgl. Klensin, 2008
6
vgl. Hall, 2005
5

2 Grundlagen
Envelope Sender in der ersten Zeile.
2.3 E-Mail-Übertragung im Internet
Für das Übertragen von Nachrichten sind sogenannte Mailserver innerhalb eines
Netzwerkes verantwortlich. Die direkte Kommunikation zwischen den Mailservern
übernehmen Agenten (engl.: agents). Man unterscheidet zwischen Mail Transfer
Agents (MTA) und Mail Delivery Agents (MDA). E-Mail-Programme, mit denen
Nutzer E-Mails versenden, werden alternativ als Mail User Agent (MUA) bezeichnet.
In Abbildung 2.2 wird die Übertragung von E-Mails im Internet dargestellt.
Abbildung 2.2: E-Mail-Übertragung. (eigene Abb.)
Der Nutzer schickt mit seinem E-Mail-Programm (MUA) eine E-Mail los. Die Nach-
richt wird via SMTP zu einem Server übermittelt (MTA). Der Zielserver (MDA) stellt
die Nachricht zu bzw. für den Empfänger (MUA) bereit.
Zum Abrufen der E-Mails vom Zielserver existieren verschiedene Verfahren, etwa
das POP3- (Post Office Protocol Version 3), IMAP-Protokoll (Internet Message Ac-
cess Protocol) oder Webmail (z.b. Google Mail). Die genaue Funktionsweise der
einzelnen Protokolle ist in den nachfolgenden Unterkapiteln erläutert.
2.3.1 Funktionsweise von SMTP
Erst das Simple Mail Transfer Protocol (SMTP) ermöglicht das Versenden von E-
Mails. Im Jahre 1982 wurde SMTP erstmals mit RFC 821 standardisiert.
7
SMTP
ist ein Protokoll der IP-Familie (Internet Protocol), das zum Versenden und zum
Weiterleiten von E-Mails in Computernetzen dient. SMTP findet sich im OSI- bzw.
7
vgl. Postel, 1982
6

Details

Seiten
Erscheinungsform
Erstausgabe
Jahr
2013
ISBN (PDF)
9783955497774
ISBN (Paperback)
9783955492779
Dateigröße
798 KB
Sprache
Deutsch
Institution / Hochschule
Fachhochschule Kufstein Tirol
Erscheinungsdatum
2015 (Februar)
Schlagworte
Anti-Spam Card Lottery Spamware Spam EDV
Zurück

Titel: Spam-Filter - Mechanismen und Algorithmen, Chancen und Gefahren: Einführung Spambekämpfung
book preview page numper 1
book preview page numper 2
book preview page numper 3
book preview page numper 4
book preview page numper 5
book preview page numper 6
book preview page numper 7
book preview page numper 8
book preview page numper 9
44 Seiten
Cookie-Einstellungen