Start von SDM – StaDDrat Meta

Alle Dokumente des Stadtrats Dresden aus dessen PDF-Korsett befreien und Semantisch angereichert ablegen. OpenData!

Advertisements

Schon seit einiger Zeit wurschtel ich ja an einem kleinen persönlichen Projekt herum, nämlich daran, alle öffentlichen Dokumente des Stadtrates Dresden zu überwachen, sie aus ihrem PDF-Kerker zu „befreien“ und nach Text konvertiert als open data zur Verfügung zu stellen. Dieser Artikel kündet nun vom ersten vollständigen Schritt in diese Richtung.

Lange genug haben ich und andere Menschen aus dem OK-Lab Dresden sich angeschaut, dass beim RIS-Scraper und bei der Entwicklung des OParl Standards Stillstand eingetreten zu sein scheint. Auch wenn ich weiss, dass hinter den Kulissen noch fleißig weiter gearbeitet wird, wollte ich nicht länger warten und habe eigene scrape und convert tools geschrieben:
https://github.com/RobTranquillo/SDM-stadtrat_dresden_metascrape

Mit diesen können alle öffentlichen Dokumente des StaDDrats herunter geladen werden. Das benötigt ca einen halben bis ganzen Tag und mehr als 11GB Platz auf der Festplatte. Die Umwandlung der PDFs benötigt noch einmal etwa eine Stunde, jedenfalls auf meiner SSD Festplatte.

Hier ist aber auch meine Seite, auf der ich jeweils den aktuellesten Stand zum direkten download anbiete:
http://sdm.boogiedev.net

Mit den tools werde ich nun regelmässig dem Stadtrat zu Leibe rücken und damit die Gundlage für weitereführende Projekte legen, die nun hoffentlich folgen werden. Derzeit werden aus den PDFs noch sehr schmale Metadaten geholt, gerade mal der Titel des heruntergeladenen Dokuments. Aber auch hier kommt bald mehr. Wenn Du Dich mit Auswertung von großen und vielen Texten und vielleicht auch mit dessen semantischer Auswertung auskennst oder einfach mal damit herumspielen möchtest. Lade Dir doch die Daten herunter, wirf selber den scraper an oder komm zu den offenen Treffen des open knowlede labs Dresden vorbei!

Nun kurz zur Erklärung der Scripte:

  1. scrape.php
    Läd alle im Stadtrat verfügbaren Dokumente auf einmal herunter. Im Script sind auch weitere Funktionen, mit denen später auch weitere Dokumente nachgeladen werden können. Dieses Script legt mehr als 24k PDFs und zu jeder Datei noch eine „*.scrapeinfo“ Datei auf der Festplatte ab, in der Informationen zum download enthalten sind und die später als container für weitere Metadaten dienen und als Vergleichswerte für spätere Veränderungsanalysen dienen.
  2. pdfmetascapeinfo.php
    Wandelt alle PDFs mittels des Programmes pdftohtml (muss auf Linux installiert sein und auf Windows als exe neben dem script liegen), wertet den Inhalt aus und schreibt alle erkannten Informationen Zeilenweise mit einem Bezeichner in die dazugehörige *.scrapeinfo.
  3. scrapeinfo2csv.php
    Noch ein kleiner tweak. Damit nicht immer zig tausende Dateien durchsucht werden müssen, speichert dieses Script den Inhalt aller *.scapeinfo in eine einzige csv Datei, die dann leicht in Exel, Calc oder andere Programme geladen werden kann um auch selbst schnell und einfach ein bisschen herum zu forschen. Diese Datei ist im Paket unter: http://www.boogiedev.net/staDDratmeta auch immer enthalten.
  4. htmlgrabber.php
    Bibiliothek mit Befehlen zum html parsen/auslesen.

Autor: Rob Tranquillo

Software tester & web coder, social & politics, snow & wakeboard, guitar & bass, vegan & yoga

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s