Deutsch

Suchergebnisse für "Linguistik"
< Zurück 1 2 Vorwärts >

USENET Korpus 2005-2009

Der Korpus enthält eine Sammlung von öffentlichen USENET Postings. Diese wurden im Zweitraum von Oktober 2005 bis Januar 2011 in über 47.000 Englisch-sprachigen Newsgroups gesammelt. Größe: ca. 34GB Lizenz:Creative Commons Attribution-Noncommercial-Share Alike 2.5 Canada License.

Download

Liste deutscher Nomen csv txt txt xls

Wir stellen Ihnen in diesem Datensatz ein Verzeichnis der deutschen Substantive im Volltextformat zur Verfügung. Welche Datenfelder liegen zu den Datensätzen vor Neben dem Wort an sich ist noch die ungefähre relative Häufigkeit des Substantivs in Prozent angegeben. Man kann damit dann die häufigsten deutschen Substantive bestimmen. In welchem Datenforma

Details

Korpus - Deutsche Nachrichtenmeldungen csv txt sql txt

Die Datenbank enthält10.494 Nachrichtenmeldungen aus verschiedenen Rubriken über die Jahre 2007 bis 2011. Zur einfachen Weiterverarbeitung sind die Dateiformate TXT und SQL angehängt. Das Dateiencoding ist UFT8. Die Datenfelder enthalten neben dem Nachrichtentext, auch die Überschrift, das Datum und die Quelle. Es handelt sich damit um einen diachronen Textkorpus der sich hervorragend zur histori

Download

Korpus - Bulgarische Gesetzesvorschläge xml zip

Dieser Datensatz enthält den Volltext von 1.845 Gesetzesvorschlägen und zugestimmten Gesetztexten vom Bulgarischen Parlament. Das Datenformat ist RTF (in ein Zip Archiv gepackt.), dieses entpackt sich auf 424MB. Der Datensatz ist interessant für Korpuslinguisten, die auf der Suche nach Bulgarischen Texten in kyrillischer Schrift sind, aber durch seine Aktualität auch für OpenData und OpenGov Anwen

Download

Filterliste SPAM-Wörter deutsch txt

Die Datei enthält eine Wortliste mit Beleidigungen und Schimpfworten Sexuell expliziten Vokabular Werbe- und Spamvokabular Es sind vorwiegend deutsche Substantive enthalten - in der Summe knapp 2.000 Wörter. Anwendungsbereiche finden sich in der automatischen Erkennung und Filterung von nichtkonformen Nutzerbeiträgen in: Foren Blogs Emails Chats IRC Mailinglisten Ausschni

Details

Englische Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe

Details

Englische Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramm

Download
< Zurück 1 2 Vorwärts >

Sie haben den gewünschten Datensatz nicht gefunden? Dann erstellen Sie doch einfach und kostenlos ein Datengesuch, damit ihnen Datenanbieter gezielt die benötigten Daten bereitstellen können.