Deutsch

Buchstabenhäufigkeit im Englischen

csv txtsqlxls

Der Datensatz wurde vom Verkäufer am Donnerstag, 10. Mai 2018, 06:26 Uhr vor 495 Tagen eingestellt.

Beschreibung des Datensatzes


Der Datensatz enthält die Häufigkeiten der einzelnen Buchstaben in der englischen Sprache.  Angegeben ist jeweils die prozentuale Häufigkeit zu jedem möglichen  Buchstaben oder Zeichen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(1, 1, ' ', 121541707, 0.161037305392267),
(2, 1, 'e', 72242950, 0.0957186655407781),
(3, 1, 't', 50431134, 0.0668189885405865),
(4, 1, 'a', 50160580, 0.0664605166365914),
(5, 1, 'i', 44266852, 0.0586515916242502),
(6, 1, 'o', 44158557, 0.0585081056109473),
(7, 1, 'n', 43034140, 0.0570183035645004),
(8, 1, 'r', 38151841, 0.0505494765709864),
(9, 1, 's', 38109560, 0.0504934561441112),
(10, 1, 'h', 28342331, 0.0375523162001971),
(11, 1, 'l', 24274533, 0.0321626664662169),
(12, 1, 'd', 22011889, 0.0291647647432965),

...

Download der Dateien

1gramme_en.csv
Größe: 5.34K
Download als csv
1gramme_en.sql
Größe: 6.26K
Download als sql
1gramme_en.xls
Größe: 19.5K
Download als xls



Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Buchstabenhäufigkeit im Deutschen csv txt sql xls

Der Datensatz enthält die Häufigkeiten der einzelnen Buchstaben in der deutschen Sprache. Angegeben ist jeweils die prozentuale Häufigkeit zu jedem möglichen Buchtsaben oder Zeichen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (1, 1, ' ', 26099326, 0.133997441804692), (8, 1, 'a', 8619119, 0.0442517134967475), (27, 1, 'ä', 860895, 0.0044199504486227), (29, 1, 'A', 790565, 0.00405886679143845), (78, 1, 'Ä', 15152, 7.77924011610372e-05), (86, 1, 'á', 5592, 2.87100783587988e-05), (98, 1, 'â', 1156, 5.93505911709075e-06), (107, 1, 'ã', 735, 3.7735886254859e-06), (109, 1, 'à', 623, 3.19856559684043e-06), (113, 1, 'å', 563, 2.89051754578036e-06), (117, 1, 'Á', 226, 1.16031432565961e-06), (118, 1, 'Å', 212, 1.08843644707893e-06), (17, 1, 'b', 2679321, 0.0137559935369055), (30, 1, 'B', 733053, 0.003763592466229), (13, 1, 'c', 4396291, 0.0225711479073824), (59, 1, 'C', 203192, 0.00104321499318331), (99, 1, 'ç', 1081, 5.54999905326566e-06), (9, 1, 'd', 7472204, 0.0383632979887214), (28, 1, 'D', 849212, 0.00435996835894712), ...

Download

Buchstabenhäufigkeit von deutschen Nachnamen xls

Der Datensatz enthält die prozentuale Häufigkeit mit der ein Buchstabe als Anfangsbuchstabe eines deutschen Nachnamens auftaucht. Die Analyse basiert auf der Verarbeitung von mehreren Millionen Nachnamen in ihrer realen Auftretenswahrscheinlichkeit in Deutschland.

Download

Englische Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (10042, 3, 'and', 4373077, 0.00588827720839116), (10045, 3, 'ing', 3527528, 0.00474975920258473), (10054, 3, 'ion', 2805181, 0.00377713069029242), (10059, 3, 'ent', 2194825, 0.00295529624196124), (10061, 3, 'tio', 2177270, 0.00293165871936712), (10071, 3, 'for', 1777732, 0.00239368728660109), (10075, 3, 'ter', 1733631, 0.00233430600583076), (10077, 3, 'her', 1661225, 0.00223681250193162), (10078, 3, 'ati', 1645746, 0.00221597027964541), (10083, 3, 'The', 1568356, 0.00211176590063324), (10084, 3, 'ate', 1554016, 0.00209245732336183), (10089, 3, 'ere', 1381306, 0.00185990611132938), (10090, 3, 'ver', 1375222, 0.00185171410406862), (10095, 3, 'was', 1309621, 0.00176338342222889), (10101, 3, 'ted', 1291422, 0.00173887876408646), (10103, 3, 'ers', 1254601, 0.00168929988516661), (10104, 3, 'all', 1249597, 0.00168256208037818), (10108, 3, 'are', 1205797, 0.00162358609122282), (10109, 3, 'hat', 1197634, 0.00161259474420284), (10111, 3, 'tha', 1189543, 0.00160170034401435), ...

Details