Hier in der universitären Forschung werden ja vor allem irre Ideen produziert, weniger sinnvolle Systeme. Schön ist es deshalb immer, wenn eine Idee, die ich irgendwann einmal in einer dieser endlosen Hirnsturmsitzungen geäußert hatte, sich auf den Weg macht, in ein Fremdhirn spaziert und dort Wurzeln schlägt, wächst, gedeiht und mannigfaltige Frucht bringt.
Meine Idee fing so an:
Bei einer Überprüfung meiner del.icio.us-Tags fiel mir ein, dass ich doch mal nachsehen könnte, wer eigentlich meine Heimseite getaggt hat. Es stellte sich heraus, dass es weltweit nur einen gab, der das gemnacht hatte. Leider sind bei del.icio.us aber die Usernamen quasi anonym, es ist also nicht ersichtlich, wer sich hinter dem User verbirgt, der meine Seite getaggt hatte.
Was sich aber natürlich herausfinden lässt, ist
- Welche Tags verwendet der User?
- Welche Seiten hat er getaggt?
- Wo lassen sich weitere Informationen über den User finden?
Wenn es darüber hinaus den gleichen Usernamen auch noch auf anderen Systemen gibt, auch
- Welche Fotos hat der User auf Flickr eingestellt?
- Wie sind diese Fotos getaggt?
Die Problemstellung: Kann man aus dieser Menge semistrukturierter Informationen (Tags, URLs, Fotos) eine Schätzung über die Person, die sich hinter den Tags verbirgt, ableiten? Wie ließe sich so etwas bewerkstelligen? Wie ließe sich so etwas verhindern? Und wer zum Henker ist „dolefulrabbit“?
Die Idee, ursprünglich unter dem widerwärtigen Arbeitsnamen „Semantische Rasterfahndung“ geboren, ist zu Sebastian Kurt gewandert, der daraus eine Studienarbeit und jetzt auch noch eine Diplomarbeit baut. Außerdem betreibt er seit kurzem das Blog vIdentity, das ich mit Spannung verfolgen werde.