Deutsch

Deutsche Bigramme

csv txtsqlxls

Das Angebot wurde von einem Nutzer am Dienstag, 2. Juli 2013, 18:17 Uhr vor 2488 Tagen inseriert.

Beschreibung des Datensatzes


Der Datensatz enthält die häufigsten Buchstabenbigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(124, 2, 'er', 5765776, 0.0298532541129943),
(125, 2, 'en', 5581917, 0.028901293882843),
(127, 2, 'ch', 3962383, 0.0205158900713467),
(129, 2, 'de', 3503595, 0.0181404396986661),
(132, 2, 'ei', 2900830, 0.0150195247142097),
(133, 2, 'te', 2741528, 0.0141947123929007),
(134, 2, 'in', 2716095, 0.0140630288498952),
(135, 2, 'ie', 2661359, 0.0137796242019989),
(138, 2, 'nd', 2096475, 0.0108548443291137),
(139, 2, 'un', 1929248, 0.0099889990160884),
(140, 2, 'ge', 1896304, 0.00981842603449867),
(141, 2, 'st', 1732421, 0.00896989483179502),
(142, 2, 'es', 1600673, 0.00828774788004407),

..

Download der Dateien

2gramme_de.csv
Größe: 385.87K
Download als csv
2gramme_de.sql
Größe: 378.51K
Download als sql
2gramme_de.xls
Größe: 859
Download als xls



Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Korpus - Deutsche Nachrichtenmeldungen csv txt sql txt

Die Datenbank enthält10.494 Nachrichtenmeldungen aus verschiedenen Rubriken über die Jahre 2007 bis 2011. Zur einfachen Weiterverarbeitung sind die Dateiformate TXT und SQL angehängt. Das Dateiencoding ist UFT8. Die Datenfelder enthalten neben dem Nachrichtentext, auch die Überschrift, das Datum und die Quelle. Es handelt sich damit um einen diachronen Textkorpus der sich hervorragend zur histori

Download

Buchstabenhäufigkeit im Deutschen csv txt sql xls

Der Datensatz enthält die Häufigkeiten der einzelnen Buchstaben in der deutschen Sprache. Angegeben ist jeweils die prozentuale Häufigkeit zu jedem möglichen Buchtsaben oder Zeichen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (1, 1, ' ', 26099326, 0.133997441

Download

Englische Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramm

Download