Hackety hack hack

Atypisches Nutzerverhalten mit Rat und Tat.

Links, frische (und halbfrische) Links!

Was gibt es hier zu sehen? Mediawiki APIs hacken

Chantek ist ein besonderer Orang-Utan. Im Yerkes Regional Primate Research Center geboren lernte er innerhalb eines Forschungsprojektes mittels der amerikanischen Gebärdensprache (ASL) mit Menschen zu kommunizieren und gesprochenes Englisch zu verstehen, Grundlagen des Umgangs mit Geld und Spiele. Mit fünfeinhalb Jahren wurde ihm der Stand eines etwa zweijährigen Kindes attestiert, wobei er in einigen Bereichen (z. B. Sprachverständnis und Werkzeugnutzung) die Fertigkeiten eines vierjährigen Kindes aufwies. Über Chantek gibt es in der Wikipedia noch mehr zu lesen, als ich hier zitiert und zusammengefasst habe.

Chantek ist aber auch der Name eines Hacks, der auf dem Mediawiki Hackathon 2014 in Amsterdam von Hay Kranen gebastelt wurde. Auf Niederländisch heisst “Api” auch Affe. Eine API, die menschliche Sprache (zumindest ein bisschen) versteht, ist gut geeignet, um nach dem sprechenden Affen Chantek benannt zu werden.

Über die Mediawiki API habe ich im letzten Blogbeitrag bereits eine umfassende Einführung geschrieben. Chantek vereinfacht diese API auf besonders schlanke Weise und macht die Unterhaltung ein bisschen angenehmer. Um Properties bei Wikidata abzufragen und Titel darzustellen, brauche ich bei der klassischen Mediawiki API zu Wikidata typischerweise mehrere API-Calls. Bei Chantek kann ich zum Beispiel sagen, dass mich nur Abfrageergebnisse auf Deutsch interessieren und ich bekomme die Werte dann auch mit ihrer deutschen Bezeichnung zurück.

Über die Grenzen der Same-Origin-Policy hinweg mit CORS

Chantek ist eine Python-Anwendung, die die CORS-Spezifikation implementiert, um JavaScript-Anwendungen in Web-Anwendungen zu ermöglichen, Daten auszulesen und darzustellen. Normalerweise gibt es bei JavaScript im Browser die Same-Origin-Policy, die verhindert, dass Daten aus beliebigen (und damit potenziell unsicheren) Quellen einfach so nachgeladen werden können: Clientseitiges JavaScript kann nur auf Daten der Domain zugreifen, woher auch das JavaScript selbst geladen wurde. Bei API-Calls stellt sich diese Maßnahme als gelinde gesagt schwierig dar. Um diese Beschränkung zu umgehen, gibt es zum Beispiel JSONP, das aber selbst nicht unproblematisch ist. CORS ist eine Möglichkeit, die Grenzen der Same-Origin-Policy zu überschreiten, die auch Authentifizierung und feinere Sicherheitsabstufungen beinhaltet und vom W3C spezifiziert wurde.

Leider ist CORS nicht in allen Browsern vorhanden. Wie man browserunhabhängig prüft, ob CORS zur Verfügung steht (bei den meisten modernen Browsern ist das der Fall), zeigt etwa dieses Tutorial von Monsur Hossain und der darin benutzte Code:

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
function createCORSRequest(method, url) {
  var xhr = new XMLHttpRequest();
  if ("withCredentials" in xhr) {
    // Check if the XMLHttpRequest object has a "withCredentials" property.
    // "withCredentials" only exists on XMLHTTPRequest2 objects.
    xhr.open(method, url, true);
  } else if (typeof XDomainRequest != "undefined") {
    // Otherwise, check if XDomainRequest.
    // XDomainRequest only exists in IE, and is IE's way of making CORS requests.
    xhr = new XDomainRequest();
    xhr.open(method, url);
  } else {
    // Otherwise, CORS is not supported by the browser.
    xhr = null;
  }
  return xhr;
}

Zeig mir meine Umgebung, Wikidata!

Mit Chantek (und CORS) wollte ich eine JavaScript-Webanwendung schreiben, die mir anzeigt, was es in Wikidata um mich herum an geogetaggten Wisssensgegenständen gibt. In Berlin (zumindest innerhalb des S-Bahn-Rings) ist das einiges — viele interessante Orte sinde nur ein paar Hundert Meter weit entfernt und haben einen Wikipedia-Artikel. Auf dem Land müsste ich meine Anwendung vermutlich ein bisschen erweitern: ein Radius von 500m ist nicht besonders üppig für manche Gegenden. Auch, dass ich Wissensgegenstände nur auf Deutsch suche und Artikel in der deutschsprachigen Wikipedia dazu anzeige, könnte eine überarbeitete Version meiner Anwendung als Parameter änderbar machen.

Als kleiner, schneller Hack zwischendurch, aufgespielt auf einen Webserver, hat mir meine Anwendung aber durchaus Spaß bereitet. Mit dem Mobiltelefon kann ich so schauen, was Wikidata für meine Umgebung anzeigt.

Ein API-Call, um Dinge im meiner Umgebung zu finden, kann mit Chantek etwa so aussehen:

 
http://chantek.bykr.org/wikidata/query?q=around[625,52.205,0.119,15]

Hiermit frage ich Chantek (über die WikidataQuery-API) nach Wikidata-Wissensgegenständen im Umkreis von 15km um Cambridge in England: der erste Parameter (625) bezieht sich auf den Planeten, für den die Koordinaten gelten (Erde), die nächsten zwei sind die Koordinaten von Cambridge und mit 15 gebe ich den Radius an. Auch Brüche sind bei der Angabe des Radius möglich, 0.5 ist also 500m.

Jetzt fehlen mir nur noch meine aktuellen Koordinaten. Moderne Browser unterstützen das HTML5-Feature Geolocation, mit der JavaScript-Bibliothek Modernizr kann ich überprüfen, ob dieses Feature vorhanden ist. Da es Privatsphärenbedenken bei der Abfrage von Geokoordinaten gibt, muss der Browser bei der ersten Abfrage der Koordinaten des Standorts von einer neuen Seite die Benutzerin oder den Benutzer fragen, ob das so in Ordnung ist. Wenn zugestimmt wird, können wir die Koordinaten benutzen, eine Abfrage starten und bekommen eine Liste von Wikidata-Items zurück. Tatsächlich erzeugen wir zuerst einen CORS-Request und als Callback-Funktion geht es gleich in die nächste Abfrage, denn wir wollen ja für jedes Element der Liste einen Titel und eine Wikipedia-Seite haben. Das könnte zum Beispiel so aussehen:

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
function locate_me() {
    // Check if we can do HTML5 geolocation
    if (Modernizr.geolocation) {
       navigator.geolocation.getCurrentPosition(function (position) {
          var lat = position.coords.latitude;
          var lon = position.coords.longitude;
          var chantek = "http://chantek.bykr.org/wikidata/";
          // Query data around me
          var query = "query?q=around[625," + lat + "," + lon + "," + "0.5]&callback=?";
          var query_xhr = createCORSRequest('GET', chantek+query);
          if (!query_xhr) {
            throw new Error('CORS not supported');
          }
          query_xhr.onload = function(){
            var response = query_xhr.responseText;
            var data = $.parseJSON(response).response;
            $.each(data, function(index, value) {
              // Call queried entities and display them
              var entity = "entity?q=Q"+ value + "&lang=de&callback=?";
              var entity_xhr = createCORSRequest('GET', chantek+entity);
              entity_xhr.onload = function(){
                var response = entity_xhr.responseText;
                var data = $.parseJSON(response).response;
                $("#location-list").append(
                    "<li>" +
                    "<big>" +
                    "<a href=" + "\"" +
                    data[Object.keys(data)[0]].sitelinks.de.url +
                    "\">"+
                    data[Object.keys(data)[0]].labels +
                    "</a>" +
                    "</big>" +
                    "</li>"
                );
              };
              entity_xhr.onerror = function() {
                throw new Error('Error making the request');
              };
              entity_xhr.send();
            });
          };
          query_xhr.onerror = function() {
            throw new Error('Error making the request');
          };
          query_xhr.send();
    });
  } else {
      throw new Error('Geolocation not supported');
  }
}

Der fertige Hack

Mit ein bisschen UI und HTML drumherum habe ich diesen kleinen Hack unter http://www.johl.io/aroundme-wikidata/ ins Netz gestellt. Ich wünsche viel Spaß!

In der Nähe des U-Bahnhofs Eberswalder Straße in Berlin sieht das auf meinem Mobiltelefon etwa so aus:

Die Cola oder das Cola? Mediawiki APIs hacken

Die Web-API von Mediawiki (und damit von den meisten Wikimedia-Projekten) ist zwar nicht gerade versteckt, aber meiner Meinung nach viel zu unbekannt. In loser Folge werde ich ein paar Hacks mit APIs für verschiedene Projekte vorstellen, auch um dazu anzuregen, selbst mit der Infrastruktur zu spielen.

Die Web-API von Mediawiki

Mediawiki hat eine RESTful Web-API. Leider ist API im Mediawiki-Umfeld ein mehrfach belegtes Wort, so dass es auch eine API gibt, um eigene Erweiterungen in PHP zu schreiben; diese API meine ich in dem Fall nicht, sondern die Schnittstelle, mit der sich Daten und Inhalte per HTTP aus Mediawiki holen lassen.

Zunächst gibt es da einen Endpunkt. Bei den Wikimedia-Projekten liegt dieser unter /w/api.php, bei dem unten benutzten Wiktionary also unter https://de.wiktionary.org/w/api.php. Praktischerweise ist der Endpunkt für die API-Calls auch gleich eine URL zur Dokumentation. Einfach den Endpunkt im Browser eingeben es erscheint eine Seite, auf der die möglichen Calls verzeichnet sind und auch mit Beispielen erklärt werden.

Ein vollständiger API-Call könnte etwa so aussehen:

https://de.wiktionary.org/w/api.php?format=json&action=query&prop=revisions&rvprop=content&titles=Cola

Schauen wir uns den API-Call mal genauer an und zerlegen ihn in seine Einzelteile.

Das Format für die Serialisierung

format=json

Hiermit sagen wir dem Wikimedia-Web-Service, dass wir den Rückgabewert gern als JSON formatiert bekommen wollen. Alternativ können wir zur Anzeige im Webbrowser das auch schön formatiert mit dem Aufruf format=jsonfm bekommen – das ist manchmal für das Debugging übersichtlicher und hilfreicher. Die API unterstützt noch andere Ausgabeformate wie WDDX, XML, YAML und eine native PHP-Serialisierung, aber möglicherweise werde diese in Zukunft nicht mehr bedient. JSON wird stark präferiert und sollte wenn immer möglich benutzt werden.

Die Action

action=query

Die “Action”, also sozusagen das Verb, ist der eigentliche Befehl, der aufgerufen wird. Es gibt etliche solche Actions, die in der Mediawiki-API dokumentiert sind, Extensions können noch weitere Actions hinzufügen, die Actions zu Wikidata etwa beginnen mit “wb” für Wikibase. Hier benutzen wir queryzur Abfrage von Daten.

Die Action query ist selbst wieder umfangreich dokumentiert, wir schauen uns hier ein paar beispielhafte Parameter an.

Action-spezifische Parameter

titles=Cola

Wir fragen hier die API nach den Daten einer Wiki-Seite mit dem Titel “Cola”. In der Abfrage werden Titel URL-kodiert, wenn der Titel also ein Leerzeichen enthält, wird dieses zu %20. Wenn mehrere Seiten gleichzeitig abgefragt werden können (und sollten) sie kombiniert werden, um nicht durch mehrere Abfragen hintereinander die Netzwerklast unnötig zu erhöhen: titles=PageA|PageB|PageC

prop=revisions

Mit diesem Parameter können wir eine Revision der Seite angeben. Wenn wir keine weiteren Informationen zur Revision angeben bekommen wir die aktuelle Version der Seite.

rvprop=content

Mit diesem Parameter sagen wir der API, dass wir den Inhalt der Seite haben wollen. Hätten wir stattdessen zum Beispiel rvprop=content|user angegen, bekämen wir den Inhalt un den Benutzer, der die letzte Änderung vorgenommen hat.

Es gibt über die API und mögliche Parameter und Actions noch viel mehr zu sagen, aber als Beispiel reicht das erstmal. Die Dokumentation zur API ist noch viel umfangreicher. Ein guter Einstiegspunkt ist die Dokumentation auf Mediawiki, die ich hier teilweise übersetzt habe.

Eine gute Einführung in die API gibt es auch als Video:

Artikel von Substantiven mit migrationsschatten.py abfragen

Als erstes Beispiel für eine Spielerei mit der API geht es um Zweifelsfragen der deutschen Sprache. Eine sehr gute Freundin von mir, beneidenswert bilingual aufgewachsen mit Deutsch und Englisch als Muttersprache, erzählte mir vor einiger Zeit davon, dass sie dann doch manchmal überrascht sei, welches grammatikalische Geschlecht und damit welchen Artikel ein Wort im Deutschen hat: Der Knoblauch? Ernsthaft?”. Wie gesagt, es handelt sich bei ihr um eine Muttersprachlerin, aber diesen Einwand wischte sie schnell beiseite mit “Ach, das ist eben mein Migrationsschatten”.

Das Problem ist aber häufig genug, um sich hinzusetzen und ein kleines Programm zu schreiben, das Wiktionary nach dem korrekten Artikel befragt. Heisst es “der Laptop” oder “das Laptop”? Und was war mit der Werbung einer österreichischen Energydrink-Marke, die von “das Cola” sprach? Ist das korrekt?

Das Progrämmchen ist ein bisschen älter, aber ich habe es seitdem ein bisschen poliert und umgeschrieben. Die Freundin mit der Frage nach den Artikeln benutzt es nach eigener Aussage regelmäßig. Im Original ist es als gist auf Github verfügbar, aber gehen wir das Programm doch mal der Reihe nach durch:

 
 
 
 
 
from __future__ import print_function
import json
import re
import sys
import urllib2

Es beginnt mit ein paar Imports. Das Programm ist für Python 2.7 geschrieben, eine Portierung nach Python3 lasse ich mal als Aufgabe für die Leserin oder den Leser (urllib2 und json bräuchten dafür Liebe, die über die automatische Portierung mit 2to3 hinausgeht).

 
 
 
if len(sys.argv) < 2:
    sys.exit('Abfrage mit: %s Substantiv' % sys.argv[0])
substantiv = sys.argv[1]

Wenn kein Substantiv angegeben ist, ist die ganze Sache auch schon vorbei, ansonsten nehmen wir an, dass der erste Kommandozeilenparameter das gesuchte Substantiv ist.

 
 
 
 
 
 
 
 
 
 
 
 
try:
    r = urllib2.urlopen(
        'http://de.wiktionary.org/w/api.php?' +
        'format=json' +
        '&action=query' +
        '&prop=revisions' +
        '&rvprop=content' +
        '&titles=' +
        substantiv
        ).read()
except urllib2.URLError, e:
    sys.exit('Problem beim Zugriff auf Wiktionary.')

Wir basteln uns die API-Anfrage zusammen. Oben ist erklärt, wieso die Abfrage so aussieht, wie sie aussieht. Wenn die Abfrage über das Internet nicht klappen sollte, brechen wir hier ab.

 
 
 
 
 
 
 
content = json.loads(r)
page = content['query']['pages'][content['query']['pages'].keys()[0]]
if 'revisions' not in page.keys():
        sys.exit(
            'Substantiv nicht im deutschsprachigen Wiktionary verzeichnet.'
        )
wikitext = (page['revisions'][0]['*'])

Der Seiteninhalt wird als JSON eingelesen und in eine Python-Datenstruktur hineingeschlürft. Wenn es keine Seite mit dem Titel gibt, der gewünscht ist, brechen wir ab. Python kennt schließlich keine Autovivication bei Collections, also passen wir auf wie ein Luchs, dass wir nicht auf eine Struktur zugreifen, für die es keinen Key gibt.

 
 
 
 
 
 
 
 
match = re.search(
    '===\s?,\s?' +
    '' +
    '(,\s?(,\s?)?)*' +
    '\s?===',
    wikitext)
if match is None:
    sys.exit('Kein Substantiv!')

Es folgt eine epische regular expression, mit der der Wikitext geparst wird. Leider wird im Wiktionary nicht ganz durchgängig dasselbe Pattern für die Angabe des grammatischen Geschlechts genutzt. Aber irgendwie sowas wie “m” oder “mf” oder “m,f,n” steht hinter einer Template-Variable, die ein Substantiv bezeichnet. Wenn nicht mal dieses Pattern gefunden wird, ist der Suchstring wohl kein Substantiv und wir verabschieden uns aus dem Programm.

 
 
genera = filter(lambda x: re.match('^[mfn]$', x),
                filter(lambda x: x is not None, match.groups()))

Wir filtern aus den capturing brackets alles heraus, was nicht “m”, “f”, oder “n” ist. Ich finde da eine Lösung mit zwei Filtern (und anonymen Lambda-Funktionen) am elegantesten, aber das ist natürlich Geschmackssache.

 
 
 
 
m = ["der " + substantiv for genus in genera if genus == "m"]
f = ["die " + substantiv for genus in genera if genus == "f"]
n = ["das " + substantiv for genus in genera if genus == "n"]
artikel = m + f + n

Mit ein paar list comprehensions bauen wir uns drei Listen mit den gefilterten Ergebnissen, die wir dann zu einer flachen Ergebnisliste vereinigen (artikel). Natürlich kann ein Substantiv mehr als ein grammtisches Geschlecht und damit mehr als einen gültigen Artikel haben.

Warum basteln wir uns eine Liste? Nun, darum:

 
map(print, artikel)

Lieber ein gedingenes map auf eine Liste als eine for-Schleife. Da wir print als Funktion benutzen können (wir haben extra from __future__ import print_function benutzt), können wir diese Funktion auf alle möglichen Ergebnis-Strings anwenden.

Was gibt dieses Programm jetzt aus? Nun, schauen wir mal:

 
 
python migrationsschatten.py Knoblauch
der Knoblauch

oder auch:

 
 
 
python migrationsschatten.py Ketchup
der Ketchup
das Ketchup

oder gar:

 
 
 
 
python migrationsschatten.py Joghurt
der Joghurt
die Joghurt
das Joghurt

Und was ist mit der Frage aus der Überschrift?

 
 
 
python migrationsschatten.py Cola
die Cola
das Cola

So seltsam das für bundesdeutsche Sprecherinnen und Sprecher klingen mag, das Cola ist okay, sagt Wiktionary. Es handelt sich um einen Austriazismus.

Leiwand!

Wie bereits gesagt, das vollständige Programm findet sich hier.

Links, Links, Links

Dinge

Einigen Dingen ist etwas einbeschrieben:

Wie manchen Dingen Gesten, und damit Weisen des Verhaltens einbeschrieben sind. Pantoffel — »Schlappen«, Slippers — sind darauf berechnet, daß man ohne Hilfe der Hand mit den Füßen hineinschlüpft. Sie sind Denkmale des Hasses gegen das sich Bücken.

Theodor W. AdornoMinima Moralia

Andere Dinge hingegen werden durch kreativ-kritische Aneignung von dem Kontext befreit, in denen ihnen ein intendierter Zweck einbeschrieben ist.

Eine Dose mit Chips von Pringels wird zur Wavelan-Yagi-Antenne — auch wenn Pringels-Dosen sich gar nicht am besten für diesen Antennentyp eignen.

Und eine Dose mit Altoids-Mints ist für mich dann kein Behälter für Minz-Bonbons mehr. In erster Linie sehe ich es es als Gehäuse für Arduino-Basteleien.

Es tut sich was

Es passieren Sachen im c-atre, dem Science-Fiction-Theater in der c-base. Stichworte: Urheberrecht, Zeitreisen. Im Mai wissen wir mehr.

Pad-Thai-Tag

Es fing damit an, dass ich dies hier auf Twitter schrieb:

Dann bekam ich Hunger. Phat Thai oder Pad Thai (Thai: ผัดไทย) ist ein traditionelles Nudelgericht der thailändischen Küche. Mit Reisnudeln, die zusammen mit ein paar Eiern, reichlich Knoblauch und Chili, Tofu, Hühnchen, Austernsauce, Fischsauce, Frühlingszwiebeln und ein bisschen Zucker im Wok gerührt, gebraten und mit nicht zu knapp Mungobohnensprossen und Erdnüssen garniert werden (die Shrimps, die noch dazu gehören, hatte ich nicht zur Hand) lässt sich schon etwas zaubern, was ganz lecker ist. Während des Entstehungsprozesses sah es so aus:

Auf meiner Liste von Dingen, die ich mir für 2014 vorgenommen habe, steht neben „Ukulele lernen“ auch „mehr Haskell programmieren“, also warum nicht mal schauen, wie das mit dem One-Time-Pad in Haskell geht. Ein One-Time-Pad, auch bekannt als Vernam-Chiffre, ist ein kryptographisches Verfahren:

Das One-Time-Pad (Abkürzung: OTP, deutsch: Einmalverschlüsselung oder Einmalschlüssel-Verfahren, wörtlich Einmal-Block, nicht zu verwechseln mit dem Einmal-Passwort-Verfahren) ist ein symmetrisches Verschlüsselungsverfahren zur geheimen Nachrichtenübermittlung. Kennzeichnend ist, dass ein Schlüssel verwendet wird, der (mindestens) so lang ist wie die Nachricht selbst. Das OTP ist informationstheoretisch sicher und kann nachweislich nicht gebrochen werden – vorausgesetzt, es wird bestimmungsgemäß verwendet.

Zunächst muss ich dazu den Key und den Eingabetext in Bytes umwandeln, damit ich die einzelnen Zeichen per XOR verbinden kann, um zu verschlüsseln. Das Internet bietet ja alles. Deshalb war es auch nicht besonders schwer, eine Webseite zu finden, die mir einiges über Bytestrings in Haskell erzählte und auch noch die Lösung für den OTP enthielt.

Das entsprechende Haskell-Package bytestrings zickte beim Installieren. Wie mir dann bei der weiteren Suche klar wurde, ist seit Ende letzten Jahres die Haskell-Plattform auf MacOS X 10.9 kaputt — Apple hat beschlossen, den Compiler gcc nicht mehr mit auszuliefern, weshalb bis zur nächsten Haskell-Version ein Fix benutzt werden muss, um GHC mitzuteilen, dass clang benutzt werden muss. Die Seite „Haskell Platform for Mac OS X“ half mir weiter.

Dann passierte noch weiteres Zeug, aber im Wesentlichen war es das mit dem Pad-Thai-Tag.