Deutsch

Buchstabenhäufigkeit im Deutschen

csv txtsqlxls

Der Datensatz wurde von einem Nutzer am Donnerstag, 4. Juli 2013, 17:17 Uhr vor 1962 Tagen inseriert.

Beschreibung des Datensatzes


Der Datensatz enthält die Häufigkeiten der einzelnen Buchstaben in der deutschen Sprache.  Angegeben ist jeweils die prozentuale Häufigkeit zu jedem möglichen  Buchtsaben oder Zeichen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(1, 1, ' ', 26099326, 0.133997441804692),
(8, 1, 'a', 8619119, 0.0442517134967475),
(27, 1, 'ä', 860895, 0.0044199504486227),
(29, 1, 'A', 790565, 0.00405886679143845),
(78, 1, 'Ä', 15152, 7.77924011610372e-05),
(86, 1, 'á', 5592, 2.87100783587988e-05),
(98, 1, 'â', 1156, 5.93505911709075e-06),
(107, 1, 'ã', 735, 3.7735886254859e-06),
(109, 1, 'à', 623, 3.19856559684043e-06),
(113, 1, 'å', 563, 2.89051754578036e-06),
(117, 1, 'Á', 226, 1.16031432565961e-06),
(118, 1, 'Å', 212, 1.08843644707893e-06),
(17, 1, 'b', 2679321, 0.0137559935369055),
(30, 1, 'B', 733053, 0.003763592466229),
(13, 1, 'c', 4396291, 0.0225711479073824),
(59, 1, 'C', 203192, 0.00104321499318331),
(99, 1, 'ç', 1081, 5.54999905326566e-06),
(9, 1, 'd', 7472204, 0.0383632979887214),
(28, 1, 'D', 849212, 0.00435996835894712),
...

Download der Dateien

1gramme_de.csv
Größe: 5.28K
Download als csv
1gramme_de.xls
Größe: 19.5K
Download als xls
1gramme_de.sql
Größe: 6.2K
Download als sql



Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Buchstabenhäufigkeit im Englischen csv txt sql xls

Der Datensatz enthält die Häufigkeiten der einzelnen Buchstaben in der englischen Sprache. Angegeben ist jeweils die prozentuale Häufigkeit zu jedem möglichen Buchstaben oder Zeichen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (1, 1, ' ', 121541707, 0.161037305392267), (2, 1, 'e', 72242950, 0.0957186655407781), (3, 1, 't', 50431134, 0.0668189885405865), (4, 1, 'a', 50160580, 0.0664605166365914), (5, 1, 'i', 44266852, 0.0586515916242502), (6, 1, 'o', 44158557, 0.0585081056109473), (7, 1, 'n', 43034140, 0.0570183035645004), (8, 1, 'r', 38151841, 0.0505494765709864), (9, 1, 's', 38109560, 0.0504934561441112), (10, 1, 'h', 28342331, 0.0375523162001971), (11, 1, 'l', 24274533, 0.0321626664662169), (12, 1, 'd', 22011889, 0.0291647647432965), ...

Download

Buchstabenhäufigkeit von deutschen Nachnamen xls

Der Datensatz enthält die prozentuale Häufigkeit mit der ein Buchstabe als Anfangsbuchstabe eines deutschen Nachnamens auftaucht. Die Analyse basiert auf der Verarbeitung von mehreren Millionen Nachnamen in ihrer realen Auftretenswahrscheinlichkeit in Deutschland.

Download

Deutsche Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (124, 2, 'er', 5765776, 0.0298532541129943), (125, 2, 'en', 5581917, 0.028901293882843), (127, 2, 'ch', 3962383, 0.0205158900713467), (129, 2, 'de', 3503595, 0.0181404396986661), (132, 2, 'ei', 2900830, 0.0150195247142097), (133, 2, 'te', 2741528, 0.0141947123929007), (134, 2, 'in', 2716095, 0.0140630288498952), (135, 2, 'ie', 2661359, 0.0137796242019989), (138, 2, 'nd', 2096475, 0.0108548443291137), (139, 2, 'un', 1929248, 0.0099889990160884), (140, 2, 'ge', 1896304, 0.00981842603449867), (141, 2, 'st', 1732421, 0.00896989483179502), (142, 2, 'es', 1600673, 0.00828774788004407), ..

Download