Deutsch

Korpus - Deutsche Nachrichtenmeldungen

csv txtsqltxt

Der Datensatz wurde vom Anbieter am Dienstag, 25. Juni 2013, 19:17 Uhr vor 1946 Tagen erstellt.

Beschreibung des Datensatzes


Die Datenbank enthält 10.494 Nachrichtenmeldungen aus verschiedenen Rubriken über die Jahre 2007 bis 2011. Zur einfachen Weiterverarbeitung sind die Dateiformate TXT und SQL angehängt. Das Dateiencoding ist UFT8. Die Datenfelder enthalten neben dem Nachrichtentext, auch die Überschrift, das Datum und die Quelle. Es handelt sich damit um einen diachronen Textkorpus der sich hervorragend zur historischen Trendanalyse, Korpusstatistik und automatischen Sprachanalyse (Neologismen etc.) eignet.




Die Datenbank wurde automatisch aus dem deutschen Wikinews Projekt extrahiert und steht somit unter der selben Lizenz.

Quelle: http://dumps.wikimedia.org/dewikinews/latest/

Lizenz: CC-BY-SA

Auszug aus der Datenbank:


Thunderbird 1.0 freigegeben


Paris (Frankreich), 07.12.2004 - Seit dem 7. Dezember ist der E-Mail-Client, News- und RSS-Reader Mozilla Thunderbird 1.0 für Windows, Linux, Solaris und MacOS verfügbar. Thunderbird wurde Mitte 2003 aus der Mozilla Websuite ausgegliedert und als eigenständiges Projekt weiterentwickelt, nachdem die Websuite als zu langsam und zu groß in die Kritik geraten war. Damit ist nun neben dem eigenständigen Browser Mozilla Firefox, der am 9. November 2004 die Version 1.0 erreicht hatte, auch der E-Mail-Client des Mozillaprojekts der Betaphase entwachsen. Die unter dem Namen Mozilla Sunbird entwickelte Kalenderapplikation ist aber noch in einem sehr frühen Entwicklungsstadium.
Bei der Entwicklung des Open-Source-Programms wurde viel Wert auf Sicherheit, Schnelligkeit und einfache Bedienung gelegt. Der E-Mail-Client kann einfach mittels Erweiterungen, auch „Extensions“ genannt, um neue Funktionen erweitert werden. Möglich ist der Import von Nachrichten, Adressen und sogar Einstellungen aus Outlook, Outlook Express und ähnlichen Programmen.
Funktionen des Mailprogramms sind unter anderem ein Spamfilter, automatische Rechtschreibprüfung und eine Profilverwaltung für mehrere Nutzer. Das Verschlüsseln und Signieren von Nachrichten mit S/MIME wird von Haus aus unterstützt, für GnuPG/PGP-Funktionalität wird die Erweiterung „Enigmail“ benötigt – speziell letzteres ist eine Funktion, die für einen größeren Nutzerkreis zum Schutz ihrer Privatsphäre interessant werden könnte, wenn am 1. Januar 2005 die TKÜV (Telekommunikations-Überwachungsverordnung) in Kraft tritt.
Seit der Version 0.8 wird auch ein zentraler Posteingang unterstützt. In der Version 0.9 waren die so genannten Virtuellen Ordner das Highlight der Entwicklung. Mit diesen Virtuellen Ordnern lassen sich Suchvorgänge als Ordner abspeichern, die dann automatisch alle E-Mails enthalten, auf die die Suchkriterien zutreffen.
Für die Version 1.0 haben die Entwickler vor allem an der Importfunktionalität gearbeitet, auch der RSS-Reader wurde verbessert. Mailfilter, die bisher nur für POP3-Accounts verfügbar waren, funktionieren nun auch über IMAP. Das Adressbuch kann nun mit einer Schnellsuchleiste durchblättert werden und schließlich wurde das Gruppieren von Nachrichten verbessert.

Bildvorschau

Meldung.png

Download der Dateien

wikinews_de.csv
Größe: 17.34M
Download als csv
wikinews_de.sql
Größe: 17.44M
Download als sql
korpus.txt.zip
Größe: 10.19M
Download als txt


Hinweis zu Datensätzen mit Emailadresse: Die Nutzung von Email-Adressen zu Marketingzwecken ist in Deutschland u.A. nur dann zulässig, wenn der Empfänger dem Sender seine ausdrückliche Zustimmung dafür gegeben hat. Ein solches Opt-In liegt, sofern nicht anders angegeben, hier nicht vor.


Schlüsselworte:




Noch keine Kommentare zu diesem Datensatz vorhanden:





Liste deutscher Zeitungen csv txt sql xls

Dieser Datensatz enthält eine Liste mit 693 deutschen Zeitungen. Verfügbar sind die Datenformate SQL, Excel und CSV. Die Datenfelder enthalten den Namen, die Stadt, das Land und die Internetadresse. Ausschnitt aus den Daten: "1";"Aachener Nachrichten";"Aachen";"Deutschland";"http://www.an-online.de" "2";"Aachener Zeitung";"Aachen";"Deutschland";"http://www.az-web.de" "3";"Aalener Nachrichten";"Aalen";"Deutschland";"http://www.schwaebische-post.de" "4";"Aar-Bote";"Bad Schwalbach";"Deutschland";"http://www.wiesbadener-tagblatt.de" "5";"Abendzeitung";"München";"Deutschland";"http://www.abendzeitung.de" "6";"Acher- und Bühler Bote";"Achern";"Deutschland";"http://www.bnn.de" "7";"Acher-Rench-Zeitung";"Achern";"Deutschland";"http://www.baden-online.de" "8";"Achimer Kreisblatt";"Achim";"Deutschland";"http://www.nachrichten.com" "9";"Ahlener Tageblatt";"Ahlen";"Deutschland";"http://www.die-glocke.de" "10";"Ahlener Zeitung";"Ahlen";"Deutschland";"http://www.ahlener-zeitung.de" "11";"Ahrensburger Zeitung";"Ahrensburg";"Deutschland";"http://www.abendblatt.de" "12";"Aichacher Nachrichten";NULL;"Deutschland";"http://www.augsburger-allgemeine.de" "13";"Aichacher Zeitung";NULL;"Deutschland";"http://www.aichacher-zeitung.de" "14";"Alb Bote";"Münsingen";"Deutschland";"http://www.swp.de" "15";"Alfelder Zeitung";"Alfeld (Leine)";"Deutschland";"http://www.alfelder-zeitung.de" "16";"Aller-Zeitung";"Gifhorn";"Deutschland";"http://www.waz-online.de" "17";"Allgäuer Anzeigeblatt";NULL;"Deutschland";"http://www.allgaeuer-anzeigeblatt.de/"

Details

Korpus - Bulgarische Gesetzesvorschläge xml zip

Dieser Datensatz enthält den Volltext von 1.845 Gesetzesvorschlägen und zugestimmten Gesetztexten vom Bulgarischen Parlament. Das Datenformat ist RTF (in ein Zip Archiv gepackt.), dieses entpackt sich auf 424MB. Der Datensatz ist interessant für Korpuslinguisten, die auf der Suche nach Bulgarischen Texten in kyrillischer Schrift sind, aber durch seine Aktualität auch für OpenData und OpenGov Anwendungen einsetzbar. Die Daten sind Public Domain und frei verwendbar. Quelle: http://parliament.yurukov.net/index_en.html Ausschnitt aus den Daten: З А К О Н за изменение и допълнение на Закона за насърчаване на инвестициите (обн., ДВ, бр. 97 от 1997 г.; попр., бр. 99 от 1997 г.; изм. и доп., бр. 29 и 153 от 1998 г., бр. 110 от 1999 г., бр. 28 от 2002 г., бр. 37 от 2004 г.; попр., бр. 40 от 2004 г.; изм. и доп., бр. 34, 59, 65, 80, 82 и 86 от 2006 г., бр. 42 и 53 от 2007 г. и бр. 69 от 2008 г.) § 1. В чл. 1 се правят следните изменения и допълнения: 1. В ал. 1 думите „в страната” се заменят с „на територията на Република България”. 2. В ал. 2: а) в т. 1 след думите „инвестициите за” се добавя „научни изследвания, иновации и”; б) в т. 2 думата „икономическото” се заменя със „социално-икономическото”. § 2. Член 2 се изменя така: „ Чл. 2. Насърчаването на инвестициите по този закон се извършва чрез: административно обслужване в съкратени срокове и индивидуално административно обслужване , и продажба или възмездно учредяване на ограничено вещно право върху имоти – частна държавна или частна общинска собственост , без търг или конкурс по пазарни или по-ниски цени;

Download

Deutsche Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (124, 2, 'er', 5765776, 0.0298532541129943), (125, 2, 'en', 5581917, 0.028901293882843), (127, 2, 'ch', 3962383, 0.0205158900713467), (129, 2, 'de', 3503595, 0.0181404396986661), (132, 2, 'ei', 2900830, 0.0150195247142097), (133, 2, 'te', 2741528, 0.0141947123929007), (134, 2, 'in', 2716095, 0.0140630288498952), (135, 2, 'ie', 2661359, 0.0137796242019989), (138, 2, 'nd', 2096475, 0.0108548443291137), (139, 2, 'un', 1929248, 0.0099889990160884), (140, 2, 'ge', 1896304, 0.00981842603449867), (141, 2, 'st', 1732421, 0.00896989483179502), (142, 2, 'es', 1600673, 0.00828774788004407), ..

Download