kaffeeringe.de

robots.txt: Facebook ändert die Regeln im Netz

In sei­nem Blog be­rich­tet Pete Warden dar­über, wie es da­zu kam, dass er von Facebook ver­klagt wur­de. Er hat­te Facebook.com durch­sucht (wie es je­der an­de­re Suchmaschinen-Crawler tut) und die ge­fun­de­nen Daten  sta­tis­ti­sch aus­ge­wer­tet. Er hat si­ch da­bei an die robots.txt ge­hal­ten, Facebook ist das of­fen­bar egal – die robots.txt ha­be kei­ne recht­li­che Verbindlichkeit. Vor Gericht aus­tes­ten woll­te Warden die­se Betrachtungsweise nicht. Das fi­nan­zi­el­le Risiko war ihm zu hoch. Sein Dienst ist jetzt off­line.

Pete Wardens Blogpost en­det mit zwei in­ter­es­san­ten Gedanken – bzw. bei dem ei­nen springt er ein we­nig kurz:

„I’m bum­med that Facebook are ta­king a le­gal po­si­ti­on that would cripp­le the web if it was ad­op­ted (how many peop­le would Google need to hi­re to wri­te let­ters to every sin­gle web­site they craw­led?), and a bit frus­tra­ted that peop­le don’t un­der­stand that the da­ta I was plan­ning to re­lease is al­re­a­dy in the hands of lots of com­mer­ci­al mar­ke­ting firms […]“

Der er­s­te Gedanken ist der in­ter­es­san­te­re: Facebook än­dert hier die Regeln, nach de­nen das Internet seit der Einführung der robots.txt funk­tio­niert:

Aus Sicht des Site-Betreibers war die robots.txt nie ein Mittel Bösewichte ab­zu­hal­ten. Deswegen kann man auch mit dem Manko le­ben, dass sie nur allow/disallow kei­ne fei­ne­re Einstellungen be­herrscht. Man kann nicht an­ge­ben, dass die Inhalte für die ei­ne Nutzung frei ist und für die an­de­re nicht, weil man oh­ne­hin da­mit rech­nen muss, dass Daten, die im Netz ste­hen, an­ders ge­nutzt wer­den, als man si­ch das vor­stellt.

Der Diensteanbieter aber, der ei­nen le­ga­len Crawler be­trei­ben woll­te, hat da­für ge­sorgt, dass er si­ch an die robots.txt hält.

Facebook sagt jetzt: Du kann­st Dich an die robots.txt hal­ten, aber hin­ter­her ent­schei­den wir, ob uns Deine Nutzung ge­nehm ist oder nicht. Und weil wir den di­cke­ren Geldbeutel ha­ben, wirst Du nie er­fah­ren, ob das recht­mä­ßig ist oder nicht.

Das ist oh­ne­hin im­mer ei­ne la­ten­te Gefahr – nicht nur im Internet. Es ist aber Symptom für ei­ne Entwicklung, die Timothy Wu, Professor an der Columbia Law School, in sei­nem Vortrag „The Rise and Fall of Information Empires“ be­schrie­ben hat:

„Every on­ce free and open tech­no­lo­gy has, in ti­me, be­co­me cen­tra­li­sed and clo­sed; a hu­ge cor­po­ra­te power ta­king con­trol of the ‚mas­ter swit­ch.'“

Das Internet, wird ger­ne als „de­mo­kra­tisch­tes al­ler Medien“ be­zeich­net. Aber wie auch im Reallife steht der de­mo­kra­ti­sche Aspekt des Internets in ei­nem Spannungsverhältnis zur markt­wirt­schaft­li­chen Ordnung, in der si­ch oft der Stärkere durch­setzt.

Und Ja. All die Daten, die Pete Warden in Form von Statistiken ver­öf­fent­li­chen woll­te, wer­den al­le Firmen und Organisationen, für die das wich­tig ist, schon ha­ben. Er wird nicht der Erste ge­we­sen sein, der auf die Idee ge­kom­men ist, ei­nen ei­ge­nen Crawler auf Facebook an­zu­set­zen. Nur die Veröffentlichung zu un­ter­bin­den ist schein­hei­lig.

Links

Foto: Bestimmte Rechte vor­be­hal­ten von Eric E Johnson

Kommentare

Gerald

In mei­ner Statistik (Webseite) ha­be ich ent­deckt daß Facebook so­gar ei­nen ei­ge­nen Crawler be­sitzt der auf mei­ner Webseite her­um­schnüf­felt ob­wohl ich gar nicht bei Facebook bin. Die robots.txt steht bei mir für al­le Crawler auf dis­al­low. Soviel zum Thema….

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Möchtest Du benachrichtigt werden, wenn Dir hier jemand antwortet?