Deutsch
Datendieter.de ist der Handelsplatz für geschäftsprozessrelevante Datensätze, Datenbanken und Dateien. Diese Daten können für folgende Zwecke verwendet werden: Data Mining, Business Intelligence, Datenanreicherung oder Datenvalidierung. Geodaten in der Webentwicklung und Visualiserung von Geschäftsdaten. Firmenadressen im Marketing, Dialogmarketing, Direktmarketing oder der Kundenakquise. Points of Interest für Online-Verzeichnisse und Adressenlisten zur Validierung von Adressdaten und zur Adresskorrektur. Verkäufer können einfach ihren Datensatz kostenlos anbieten und lukrativ verkaufen, sofern sie die notwendigen Rechte dazu besitzen. Käufer erwerben günstig die angebotenen Daten, ohne sie aufwändig selbst zu erstellen oder sammeln zu müssen und erhalten diese direkt zu Download.

Themenseite

Big Data



Was ist Big Data? - Definition lt. Wikipedia

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken wie Mysql und Daten-Management-Tools wie Excel nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht zum Teil in die Terabytes. Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle fünf Jahre. Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z.B. über Protokolle von Telekommunikationsverbinden und Web-Zugriffen, automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (wie Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) oder im Gesundheitswesen (Verschreibungen). In der akademischen Wissenschaft fallen ebenfalls große Datenmengen an, z.B. in der Geologie, Genetik, Klimaforschung und Kernphysik.

Beispiele

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind:
  • zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
  • bessere, schnellere Marktforschung
  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
  • Einführung und Optimierung einer intelligenten Energieverbrauchssteuerung (Smart Metering)
  • Erkennen von Interdependenzen in der medizinischen Behandlung
  • Realtime-Cross- und Upselling im E-Commerce und stationären Vertrieb
  • Aufbau flexibler Billingsysteme in der Telekommunikation


Verarbeitung von Big Data

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet (MapReduce/Hadoop). Hierbei gibt es folgende Herausforderungen:
  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • schneller Import großer Datenmengen
  • sofortige Abfrage importierter Daten (Realtime-Processing)
  • kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der in der Open-Source-Software (Apache Hadoop und MongoDb), sowie in einigen kommerziellen Produkten zum Einsatz kommt.


Dieser Artikel basiert auf dem Artikel "Big Data" aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. Die Liste der Autoren ist unter dieser Seite verfügbar. 

Verfügbare Datensätze zum Thema Big Data


Shapefile Städte Gemeindegrenzen Deutschland json kml shp sql wkt

Die Dateien enthalten die Grenzen aller 11.329 deutschen Kommunen (Städte und Gemeinden) in verschiedenen verbreiteten Geo-Datenformaten als Vektordaten mit einigen Zusatzattributen. Welche Datenfelder liegen zu den Datensätzen vor Name der Gemeinde/Stadt, Umkreispolygon der Grenzen, zusätzliche Felder: Gemeindeschlüssel, Einwohnerzahl, Landkreis, Bundesland sowie Art der Kommune (z.B. Stadt oder Kreisangehörige Gemeinde). In welchem Datenformat/Dateiformat werden die Daten bereitgestellt Die Daten liegen in WGS84-Projektion vor. Die Datenformate sind Shapefile für ESRI ArcGIS, KML für Google Maps oder Google Earth, GeoJSON für WebAnwendungen oder Quantum GIS, WKT als Textrepräsentation, .SVG als Vektorbild und SQL Geometry als Mysql und Postgresql Variante. Somit sollte fast jedes Geoinformationssystem die Dateien importieren können. Wie viele Einträge hat der Datensatz 11.329 Einträge (Ein Eintrag ist ist entweder Kreisfreie Stadt, Stadt, Kreisangehörige Gemeinde, Unwohntes gemeindefreies Gebiet, Bewohntes gemeindefreies Gebiet, Stadtkreis, Große Kreisstadt oderMarkt.) Wann wurden die Daten erhoben Die Daten wurden im August 2012 aus der OpenStreetMap zusammengestellt. D.h. unter Anderem, die Kreisgebietsreform Mecklenburg-Vorpommern 2011 ist in den Shapes berücksichtigt. Eine Garantie auf Korrektheit, Vollständigkeit und Aktualität kann allerdings nicht gewährleistet werden. Bemerkungen zum Datensatz: In Küstengebieten wurde stets nur die Landmasse des Kreises berücksichtigt, nicht Gebietsgrenzen auf dem Wasser. Aus welcher Quelle stammen die Daten Daten von OpenStreetMap (http://www.openstreetmap.org/)- Veröffentlicht unter CC-BY-SA 2.0 (http://creativecommons.org/licenses/by-sa/2.0/) Lizenz. Jede Ableitung der Daten muss auch unter dieser Lizenz stehen. bei jeder Verwendung muss obiger Herkunftsnachweis mitangegeben werden. Bei untem genannten Preis handelt es sich also um Bearbeitungskosten, nicht um eine Lizenzgebühr. Die OpenStreetMap-Daten können ohne Lizenzkosten weiterverwendet werden. Auszug aus den Daten: 941 Kreisangehörige Gemeinde Wulfsmoor Steinburg Schleswig-Holstein 01061117 380 [GEOMETRY - 378B] 942 Stadt Reinbek Stormarn Schleswig-Holstein 01062060 25820 [GEOMETRY - 10.5KiB] 943 Kreisfreie Stadt Braunschweig Braunschweig Niedersachsen 03101000 248860 [GEOMETRY - 17.0KiB] 944 Kreisfreie Stadt Salzgitter Salzgitter Niedersachsen 03102000 102390 [GEOMETRY - 17.3KiB] 945 Kreisfreie Stadt Wolfsburg Wolfsburg Niedersachsen 03103000 121450 [GEOMETRY - 19.0KiB] 946 Stadt Gifhorn Gifhorn Niedersachsen 03151009 41550 [GEOMETRY - 7.4KiB]

Details

DEAKTIVIERT: Straßenverzeichnis Deutschland mit Postleitzahlen csv txt sql

Eine Verzeichnis mit allen Straßen in Deutschland und der dazugehörigen Postleitzahl und dem dazugehörigen Ortsnamen. Die Liste ist nach dem Namen der zugehörigen Stadt sortiert. Dieser Name ist weitgehend auf die offizielle Bezeichnung (gemäß Wikipedia) normalisiert. Die möglichen Anwendungen des Straßenverzeichnis sind eine Validierung und Normalisierung von Straßenadressen, die von Kunden in Onlineshops eingegeben wurden, um die Versandkosten für Fehllieferungen durch falsche Adressen zu reduzieren. Welche Datenfelder liegen zu den Datensätzen vor "Ortsname","Postleitzahl","Straßenname" In welchem Datenformat/Dateiformat werden die Daten bereitgestellt .csv als Volltextformat zum automatisierten Weiterverarbeitung oder Import in Microsft Excel .sql für den Datenbankimport in Mysql Wie viele Einträge hat der Datensatz Über eine Millionen Einträge Wann wurden die Daten erhoben 2010 Auszug aus den Daten: Saarbrücken 66115 Marienstr. Saarbrücken 66115 Marktsteig Saarbrücken 66115 Matthiasstr. Saarbrücken 66115 Matzenberg Saarbrücken 66115 Merziger Str. Saarbrücken 66115 Mettlacher Str. Saarbrücken 66115 Metzdorfstr. Saarbrücken 66115 Molsheimer Str. ..

Details

Impressum Links DE csv txt

Inhalt der Daten: Sie erhalten mehr als 500.000 Links auf deutsche Webseiten, die ein Impressum beinhalten. Ausschnitt aus den Daten: http://0-acht-5-zehn.de/impressum.htm http://0-anzahlung-0-zinsen.de/impressum.htm http://0-bock.de/impressum.html http://0-co2-haus.de/impressum.html http://0-emission.de/impressum.html http://0-euro-handys.de/impressum.html http://0-euro.de/impressum.htm http://0-frust.de/kontakt/impressum.htm http://0-o-1.de/kat=Impressum http://0-oder-1.de/kat=Impressum http://0-problemo.de/impressum.htm http://0-provision.de/.Impressum.html http://0-schwitzen.de/component/option,com_impressum/Itemid,7/view,impressum/1c0fa7f65f637b58fa8a2907501a46db=378882b5f049cbc865004f7a6b4860d1 http://0-shop.de/impressum.php http://0-steuer-vermoegenstiftung.de/DU/kontakt-mit-pinkpoint-management.htm http://0-steuer.de/impressum.html http://0-uhr.de/impressum.htm http://00-net.de/impressum.html ... Die Liste ist weder vollständig noch wird eine Erreichbarkeit der Internetadressen zugesichert.

Details

Firmendatenbank im deutschsprachigen Raum

Inaktiv: Dieser Datensatz kann entfernt werden.

Download

DEAKTIVIERT: Domainliste .de csv txt sql txt

Der Datensatz enthält eine Liste mit über 12.9 Millionen registrierten deutschen Domainnamen, also Domains, die auf .de enden. Der Schnappschuss wurde im Februar 2010 angefertigt und das Datenformat ist komprimierter Volltext. Die Liste eignet sich für vielfältige Webanwendungen, von Webcrawling über Registrierungsprüfung bis Marketing. Eine Domain in der Liste war im Februar 2010 reserviert, es ist nicht notwendigerweise hinter jeder Domain ein Webauftritt hinterlegt. Ausschnitt aus den Daten: ... aachen-abflussreinigung aachen-adalbertstrasse aachen-aixcellent aachen-aktiv aachen-aktuell aachen-akupunktur aachen-albumdruck aachen-alles-im-lot aachen-amknipp aachen-angebote aachen-annastrasse aachen-anwalt aachen-anzeigen aachen-apartments aachen-apartments-anders aachen-apotheke aachen-apotheken ...

Details

Geokoordinaten von Telefonzellen csv txt xls

Der Datensatz enthält mehr als 23.000 Standort von öffentlichen Telefonzellen in ganz Deutschland mit genauer Ortskoordinate. Welche Datenfelder liegen zu den Datensätzen vor Name des Betreibers (optional), Rufnummer der Telefonzelle (optional), Zahlung per Kreditkarte möglich (optional), zahlung mit Münzen möglich (optional), Zahlung mit Telefonkarte möglich (optional), Genaue Geoposition.Nicht bei jedem Eintrag sind alle Felder gepflegt. Der Betreiber, die Zahlungsmittel und die Rufnummer sind nicht bei allen Datensätzen vorhanden (siehe Bildvorschau). Die Geoposition ist immer vorhanden. In welchem Datenformat/Dateiformat werden die Daten bereitgestellt Die Daten werden als Microsoft Excel Datei .xls und im Textformat .csv geliefert. Wie viele Einträge hat der Datensatz über 23.000 Datenzeilen mit Standorten Telefonzellen in Deutschland mit Ortskoordinate Wann wurden die Daten erhoben Daten wurden Mitte 2012 aufbereitet.Aktualität, Korrektheit und Vollständigkeit kann aber nicht gewährleistet werden. Es können auch Duplikate im Datensatz enthalten sein. Aus welcher Quelle stammen die Daten Daten von OpenStreetMap (http://www.openstreetmap.org/)- Veröffentlicht unter CC-BY-SA 2.0 (http://creativecommons.org/licenses/by-sa/2.0/) Lizenz. Jede Ableitung der Daten muss auch unter dieser Lizenz stehen. Bei jeder Verwendung muss obiger Herkunftsnachweis mitangegeben werden.Bei untem genannten Preis handelt es sich also um Bearbeitungskosten, nicht um eine Lizenzgebühr. Die OpenStreetMap-Daten können ohne Lizenzkosten weiterververwendt werden. Auszug aus den Daten: Deutsche Telekom AG +49 89 0032385945 yes 48.183505 11.608500 Deutsche Telekom AG +49 89 0032707628 no no yes 48.250659 11.649077 Deutsche Telekom AG +49 89 0032707629 no yes no 48.249727 11.647432 ...

Details

Medikamentenverzeichnis xls

Der Datensatz enthält eine Excel-Tabelle mit einem Medikamentenverzeichnis, das über 2.200 verschiedene Wirkstoffe und die entsprechenden Handelsmarken unter denen der Wirkstoff in Apotheken von Pharmakonzernen vertrieben wird. Zu jedem Eintrag gibt es eine Beschreibung des Wirkstoffes, Informationen zur Verschreibungspflicht und zur Wirkstoffgruppe. Die Daten wurden automatisiert aus der freien Wissensdatenbank Wikipedia extrahiert und können unter deren Lizenz weiterverwendet werden. Welche Datenfelder liegen zu den Datensätzen vor "Wirkstoffname","Beschreibung des Wirkstoffes","Auflistung von Handelsnamen","Wirkstoffgruppe","Informationen zur Verschreibungspflichtigkeit","DrugBank-Code" In welchem Datenformat/Dateiformat werden die Daten bereitgestellt .xls für Microsoft Excel Wie viele Einträge hat der Datensatz 2238 verschiedene Wirkstoffe die unter zahlreichen Handelsnamen vertrieben werden Wann wurden die Daten erhoben 2012 Aus welcher Quelle stammen die Daten Die Datenbank wurde automatisch aus dem Wikipedia Projekt extrahiert und steht somit unter der selben Lizenz. Quelle: Wikipedia Lizenz: CC-BY-SA d.h. Namensnennung -- Sie müssen den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. Weitergabe unter gleichen Bedingungen -- Wenn Sie das lizenzierte Werk bzw. den lizenzierten Inhalt bearbeiten oder in anderer Weise erkennbar als Grundlage für eigenes Schaffen verwenden, dürfen Sie die daraufhin neu entstandenen Werke bzw. Inhalte nur unter Verwendung von Lizenzbedingungen weitergeben, die mit denen dieses Lizenzvertrages identisch oder vergleichbar sind. Auszug aus den Daten: Amorolfin Amorolfin ist ein Arzneistoff, der zur Behandlung von Pilzinfektionen (Mykosen) verwendet wird. Es ist ein racemisches Morpholin-Derivat und wird als ein Gemisch von vier Stereoisomeren eingesetzt. Amorolfin ist in Deutschland, Österreich und der Schweiz als Monopräparat unter dem Namen Loceryl im Handel erhältlich. Antimykotikum nein Amoxapin Amoxapin zählt chemisch zur Klasse der Dibenzazepine und ist ein Arzneistoff aus der Gruppe der trizyklischen Antidepressiva. Amoxapin ist in Europa ausschließlich in Frankreich als Defanyl zugelassen. Trizyklisches Antidepressivum Ja APRD00142 Amoxicillin Amoxicillin ist ein Breitbandantibiotikum aus der Gruppe der Aminopenicilline und gehört damit zur Wirkstoffgruppe der -Lactam-Antibiotika. Der 1981 zugelassene Arzneistoff wird unter verschiedenen Handelsnamen vertrieben. Amoxibeta (D), Amoxypen (D), Azillin (CH), Baktocillin (D), Clamoxyl (A, CH), Duphamox (D, Tiermedizin), Infectomox (D), Jutamox (D), Ospamox (A), Spectroxyl (CH), Supramox (CH) mit Clavulansäure: Amoclav (D), AmoclanHexal (A), Amoxacid (A), Amoxi-saar plus (D), Augmentan (D), Augmentin (A), Benomox (A), Betamoclav (A), Clavamox (A), Clavaseptin (D, Tiermedizin), Clavex (A), Clavolek (A), Clavoplus (A), Co-Amoxiclav (A), Curam (A), InfectoSupramox (D), Lekamoxiclav (A), Xiclav (A) mit Flucloxacillin: Flanamox (D) mit Pantoprazol und Clarithromycin: Zacpac (D) Darüber hinaus gibt es zahlreiche Generika sowohl bei den Mono- als auch bei den Kombi-Präparaten. -Lactam-Antibiotika Ja DB01060

Details

DAX Kursdaten Nov 2001 bis Nov 2011 csv txt xls

Der Datensatz enthält ein DAX Langzeit Kursübersicht der Jahre 2001 bis 2011 zu jedem Handelstag jeweils mit Eröffnungs- und Schlusskurs. Der Verwendungszweck umfasst die statistische Auswertung von Börsendaten, Aktienverlaufanalysen und Kursvorhersagen. Welche Datenfelder liegen zu den Datensätzen vor Datum, Eröffnungskurs, Tiefstkurs, Höchstkurs, Schlusskurs In welchem Datenformat/Dateiformat werden die Daten bereitgestellt *.xls für Microsoft Excel und *.csv als Texttabelle Wie viele Einträge hat der Datensatz 2551 Handelstage Wann wurden die Daten erhoben November 2001 bis November 2011 Auszug aus den Daten: 14.12.01,"4.957,10","4.901,04","4.983,86","4.909,42" 13.12.01,"5.053,87","4.947,82","5.096,82","4.966,05" 12.12.01,"5.149,38","5.028,16","5.193,96","5.062,56" 11.12.01,"5.121,68","5.075,43","5.169,15","5.146,45" 10.12.01,"5.200,54","5.113,41","5.212,95","5.124,68"

Details

Geokodierung von Adressen mit Hausnummern csv txt

Der Datensatz enthält eine Liste mit 688.703 geokodierten Adressen auf Hausnummernebene in ganz Deutschland. Welche Datenfelder liegen zu den Datensätzen vor Die Adressfelder sind getrennt in Strasse, Hausnummer, Stadt und Postleitzahl. Die Ortsangabe ist als Geokoordinate im WGS84 Format als Längen und Breitengrad angegeben. In welchem Datenformat/Dateiformat werden die Daten bereitgestellt Als .CSV Datei (siehe Ausschnitt). Wie viele Einträge hat der Datensatz 688.703einzelne geokodierte Adressen. Wann wurden die Daten erhoben Die Daten sind im April 2012 zusammengestellt. Aktualität und Vollständigkeit kann aber nicht gewährleistet werden. Aus welcher Quelle stammen die Daten Daten von OpenStreetMap (http://www.openstreetmap.org/)- Veröffentlicht unter CC-BY-SA 2.0 (http://creativecommons.org/licenses/by-sa/2.0/) Lizenz. Jede Ableitung der Daten muss auch unter dieser Lizenz stehen. Bei jeder Verwendung muss obiger Herkunftsnachweis mitangegeben werden.Bei untem genannten Preis handelt es sich also um Bearbeitungskosten, nicht um eine Lizenzgebühr. Die OpenStreetMap-Daten können ohne Lizenzkosten weiterververwendt werden. Auszug aus den Daten: "Acherstraße","9","Ettlingen","76275","8.3758060","48.9222451" "Achillesstraße","31","Berlin-Karow","13125","13.4863741","52.6207704" "Achillesstraße","54","Berlin","13125","13.4870119","52.6178319" "Achillesstraße","55","Berlin","13125","13.4881649","52.6181849" "Achillesstraße","57","Berlin","13125","13.4884586","52.6180652" "Achillesstraße","59","Berlin","13125","13.4887871","52.6179254" "Achillesstraße","61","Berlin","13125","13.4890532","52.6178108"

Details