Jetzt also doch mit Captchas
12 10 2007
Ich hatte mich lange dagegen gewehrt Captchas einzusetzen. Ich war und bin immer noch der Meinung das viele "Internet-Laien" immer ganz große Fragezeichen im Gesicht haben, wenn sie bei Formularen diese "komischen" Bildchen mit verzerrten Zeichenfolgen vorgesetzt bekommen und diese in ein weiteres Formularfeld eingeben sollen. Fragt man auch mal in seinem Bekanntenkreis rum, ob man wisse, warum man das machen muss, sagen viele, sie haben keine Ahnung und wundern sich auch noch darüber. Eine Person antwortete sogar, dass sei ihr nicht ganz geheuer wenn diese Eingaben verlangt werden.
Davon abgesehen nervt es einen ja selbst oft mehr als gewaltig, dass man die oft mehr als abenteuerlich verzerrten Buchstaben und Zahlencodes zu entziffern hat und sich gerade bei extrem unleserlichen Codes dann auch gerne vertippt. Ganz davon zu schweigen, dass auch gerne Fonts eingesetzt werden, die es einem nicht gerade erleichtern bestimmte Zeichen auseinanderzuhalten. "O" und die "0" sind da solche Beispiele.
Bisher hatte ich das Thema-Spamschutz auch auf die Admins übertragen. Über die jeweiligen CMS-Systeme konnten Wörter in eine Liste gepflegt werden. Sozusagen eine schwarze Liste verbotener Wörter. Rief nun jemand das entsprechende Skript auf, z.B. um einen Gästebucheintrag zu schreiben, wurde die Liste in ein Array geladen und dann mit den eingegeben Formulardaten verglichen. Zudem wurden Einträge mit mehr als 3 URLs ebenfalls geblockt. Tauchte eines der Black-List-Wörter im Eintrag auf, wurde der Eintrag nicht in die Datenbank geschrieben und eine entsprechende Meldung ausgegeben:
Daher habe ich mich jetzt (wohl oder übel) doch zu Captchas entschlossen. Da zwar viele Spam-Bots auch mit einigen Captchas zurecht kommen habe ich mir zwei Versionen programmiert, welche nach dem Zufallsprinzip eingesetzt werden. Die eine Version ist ein "klassisches" Captcha, dass die Eingabe von 5 Buchstaben und/oder Ziffern verlangt, die andere Version verlangt die Lösung einer kleinen Rechenaufgabe mit einstelligen Zahlen, wie z.B. "3+6" oder "9-4". Und um die Fragezeichen bei vielen Besuchern vielleicht etwas zu verkleinern, habe ich zumindest einen kleinen Erklärungssatz vor das Formularfeld geschrieben und ich werde die nächsten Tage auch noch den Satz mit einem kleinen Pop-Up-Fenster verlinken, wo dann eine etwas genauere Erklärung ("Warum muss ich das eingeben? - Wegen den bösen Spambots, die ihre Werbung für Potenzpillen etc. abladen wollen,...") dabei steht.
Einen etwas neueren Ansatz, den ich vielleicht auch noch in ähnlicher Weise mir einbauen werde, hat die Forschungsgruppe von Microsoft (Microsoft Research - MSR) vorgestellt. Das ganze nennt sich "Asirra", was für "Animal Species Image Recognition for Restricting Access" steht. Dem Nutzer wird eine Auswahl von Fotos, die aus einer über drei Millionen Bilder fassenden Datenbank geladen werden, angezeigt. Auf diesen Fotos sind zum Teil Hunde, zum Teil Katzen abgebildet. Die Aufgabe für den Nutzer heißt nun, finde die Bilder mit den Katzen. Für kleinere Projekte wird sich sowas bestimmt auch selbst umsetzten lassen und man wird sich dann wohl eine eigene Bilder-Datenbank zulegen, die thematisch zum Angebot etwas besser passendere Bilder anzeigt. Bei einer Seite beispielsweise zum Thema Fussball finde ich jetzt Hunde- und Katzenbilder weniger geeignet! ;)
Und den bösen, bösen Spammern sei noch das hier gesagt:
(keine Ahnung mehr, wo ich das mal gefunden habe)
Davon abgesehen nervt es einen ja selbst oft mehr als gewaltig, dass man die oft mehr als abenteuerlich verzerrten Buchstaben und Zahlencodes zu entziffern hat und sich gerade bei extrem unleserlichen Codes dann auch gerne vertippt. Ganz davon zu schweigen, dass auch gerne Fonts eingesetzt werden, die es einem nicht gerade erleichtern bestimmte Zeichen auseinanderzuhalten. "O" und die "0" sind da solche Beispiele.
Bisher hatte ich das Thema-Spamschutz auch auf die Admins übertragen. Über die jeweiligen CMS-Systeme konnten Wörter in eine Liste gepflegt werden. Sozusagen eine schwarze Liste verbotener Wörter. Rief nun jemand das entsprechende Skript auf, z.B. um einen Gästebucheintrag zu schreiben, wurde die Liste in ein Array geladen und dann mit den eingegeben Formulardaten verglichen. Zudem wurden Einträge mit mehr als 3 URLs ebenfalls geblockt. Tauchte eines der Black-List-Wörter im Eintrag auf, wurde der Eintrag nicht in die Datenbank geschrieben und eine entsprechende Meldung ausgegeben:
"Spam-Verdacht - Eintrag wurde nicht gespeichert"Eine ganze Weile funktionierte das auch so ganz gut. Hin und wieder kam ein Eintrag doch durch, der konnte dann über das CMS entfernt werden und entscheidende Schlüsselwörter wurden in die Black-List eingepflegt. Mittlerweile wurden aber die Listen viel zu groß, worunter einerseits die Verarbeitungszeit der Skripte litt und andererseits wuchs das Risiko, dass immer mehr erwünschte Einträge abgeblockt werden.
Einen etwas neueren Ansatz, den ich vielleicht auch noch in ähnlicher Weise mir einbauen werde, hat die Forschungsgruppe von Microsoft (Microsoft Research - MSR) vorgestellt. Das ganze nennt sich "Asirra", was für "Animal Species Image Recognition for Restricting Access" steht. Dem Nutzer wird eine Auswahl von Fotos, die aus einer über drei Millionen Bilder fassenden Datenbank geladen werden, angezeigt. Auf diesen Fotos sind zum Teil Hunde, zum Teil Katzen abgebildet. Die Aufgabe für den Nutzer heißt nun, finde die Bilder mit den Katzen. Für kleinere Projekte wird sich sowas bestimmt auch selbst umsetzten lassen und man wird sich dann wohl eine eigene Bilder-Datenbank zulegen, die thematisch zum Angebot etwas besser passendere Bilder anzeigt. Bei einer Seite beispielsweise zum Thema Fussball finde ich jetzt Hunde- und Katzenbilder weniger geeignet! ;)
Und den bösen, bösen Spammern sei noch das hier gesagt:
In a perfect world, spammers would get caught, go to jail, and share a cell with many men who have enlarged their penises, taken Viagra and are looking for a new relationship.
(keine Ahnung mehr, wo ich das mal gefunden habe)






Aufgenommen: Okt 30, 11:00