Deutsch

Englische Trigramme

csv txtsql

Das Angebot wurde vom Verkäufer am Freitag, 14. Dezember 2012, 17:17 Uhr vor 2408 Tagen inseriert.

Beschreibung des Datensatzes


Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:


INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(10042, 3, 'and', 4373077, 0.00588827720839116),
(10045, 3, 'ing', 3527528, 0.00474975920258473),
(10054, 3, 'ion', 2805181, 0.00377713069029242),
(10059, 3, 'ent', 2194825, 0.00295529624196124),
(10061, 3, 'tio', 2177270, 0.00293165871936712),
(10071, 3, 'for', 1777732, 0.00239368728660109),
(10075, 3, 'ter', 1733631, 0.00233430600583076),
(10077, 3, 'her', 1661225, 0.00223681250193162),
(10078, 3, 'ati', 1645746, 0.00221597027964541),
(10083, 3, 'The', 1568356, 0.00211176590063324),
(10084, 3, 'ate', 1554016, 0.00209245732336183),
(10089, 3, 'ere', 1381306, 0.00185990611132938),
(10090, 3, 'ver', 1375222, 0.00185171410406862),
(10095, 3, 'was', 1309621, 0.00176338342222889),
(10101, 3, 'ted', 1291422, 0.00173887876408646),
(10103, 3, 'ers', 1254601, 0.00168929988516661),
(10104, 3, 'all', 1249597, 0.00168256208037818),
(10108, 3, 'are', 1205797, 0.00162358609122282),
(10109, 3, 'hat', 1197634, 0.00161259474420284),
(10111, 3, 'tha', 1189543, 0.00160170034401435),
...

3gramme_en.csv.gz
Größe: 1.42M
Download als csv
3gramme_en.sql.gz
Größe: 1.43M
Download als sql


Preis: 10,00 €


Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Englische Wortliste csv txt sql

Dieser Datensatz enthält die häufigsten Wörter der englischen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: INSERT INTO englischeWortliste (id, wort, count, percent) VALUES (1, 'the', 46900999, 0.0658374919539244), (2, 'of', 25900356, 0.0363577432487905), (3, 'and', 21878171, 0.0307115826504907), (4, 'in', 18883923, 0.0265083933195331), (5, 'a', 15610342, 0.0219130890116649), (6, 'to', 15608703, 0.0219107882579153), (7, 'was', 8829758, 0.0123948131953458), (8, 'is', 8762885, 0.0123009399156011), (9, 'The', 7918111, 0.0111150845476187), (10, 'for', 6140305, 0.00861948124030667), (11, 'as', 5739654, 0.0080570655657742), (12, 'on', 5325161, 0.00747521912040407), (13, 'by', 5246009, 0.00736410913822358), (14, 'with', 5243163, 0.00736011405270097), (15, 'that', 4068801, 0.00571159802160333), (16, 'from', 3869104, 0.00543127244408796), (17, 'at', 3584642, 0.00503195760995836), (18, 'his', 3479258, 0.00488402433774656),

Details

Deutsche Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (9015, 3, 'der', 1466004, 0.00765538408168634), (9017, 3, 'ein', 1241199, 0.00648146598972786), (9018, 3, 'sch', 1205611, 0.00629562760954673), (9019, 3, 'ich', 1195695, 0.00624384685822955), (9022, 3, 'che', 1014516, 0.00529774109553323), (9023, 3, 'die', 913767, 0.00477163592061842), (9024, 3, 'und', 904872, 0.00472518676945198), (9028, 3, 'den', 821339, 0.00428898250364131), (9030, 3, 'ine', 775831, 0.0040513424843853), (9031, 3, 'ten', 764684, 0.00399313352563856), (9033, 3, 'ung', 706683, 0.00369025581717263), (9034, 3, 'nde', 684003, 0.00357182223106192), (9035, 3, 'gen', 647717, 0.00338233893716363), (9038, 3, 'ter', 600607, 0.00313633337095219), (9039, 3, 'hen', 598021, 0.00312282943560464), (9040, 3, 'cht', 576579, 0.00301086061049944), ...

Details

Englische Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (127, 2, 'th', 14320528, 0.0191269653477765), (128, 2, 'he', 13799443, 0.0184309871870379), (130, 2, 'in', 11201233, 0.0149607329732095), (133, 2, 'er', 10094645, 0.0134827378650498), (134, 2, 'an', 9888662, 0.0132076202364797), (137, 2, 're', 8086665, 0.0108008141343725), (138, 2, 'on', 7659756, 0.0102306205179322), (141, 2, 'at', 6313486, 0.00843249829515169), (143, 2, 'nd', 6190383, 0.00826807790400359), (144, 2, 'or', 6170943, 0.00824211320449245), (146, 2, 'ed', 6081354, 0.00812245520734724), (147, 2, 'en', 6013232, 0.00803146923717762), (148, 2, 'es', 5986226, 0.00799539914072712), (150, 2, 'ar', 5826560, 0.00778214401150157), (151, 2, 'is', 5819185, 0.00777229372040617), (152, 2, 'te', 5772226, 0.00770957374487411), (154, 2, 'ti', 5464381, 0.0072984058991434), (155, 2, 'al', 5054702, 0.00675122523396739) ...

Download