Deutsch

Englische Bigramme

csv txtsqlxls

Das Angebot wurde vom Anbieter am Dienstag, 11. Juni 2013, 08:17 Uhr vor 2108 Tagen eingestellt.

Beschreibung des Datensatzes


Der Datensatz enthält die häufigsten Buchstabenbigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:


INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(127, 2, 'th', 14320528, 0.0191269653477765),
(128, 2, 'he', 13799443, 0.0184309871870379),
(130, 2, 'in', 11201233, 0.0149607329732095),
(133, 2, 'er', 10094645, 0.0134827378650498),
(134, 2, 'an', 9888662, 0.0132076202364797),
(137, 2, 're', 8086665, 0.0108008141343725),
(138, 2, 'on', 7659756, 0.0102306205179322),
(141, 2, 'at', 6313486, 0.00843249829515169),
(143, 2, 'nd', 6190383, 0.00826807790400359),
(144, 2, 'or', 6170943, 0.00824211320449245),
(146, 2, 'ed', 6081354, 0.00812245520734724),
(147, 2, 'en', 6013232, 0.00803146923717762),
(148, 2, 'es', 5986226, 0.00799539914072712),
(150, 2, 'ar', 5826560, 0.00778214401150157),
(151, 2, 'is', 5819185, 0.00777229372040617),
(152, 2, 'te', 5772226, 0.00770957374487411),
(154, 2, 'ti', 5464381, 0.0072984058991434),
(155, 2, 'al', 5054702, 0.00675122523396739)
...

Download der Dateien

2gramme_en.csv
Größe: 433.38K
Download als csv
2gramme_en.sql
Größe: 425.08K
Download als sql
2gramme_en.xls
Größe: 859
Download als xls



Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Deutsche Bigramme csv txt sql xls

Der Datensatz enthält die häufigsten Buchstabenbigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (124, 2, 'er', 5765776, 0.0298532541129943), (125, 2, 'en', 5581917, 0.028901293882843), (127, 2, 'ch', 3962383, 0.0205158900713467), (129, 2, 'de', 3503595, 0.0181404396986661), (132, 2, 'ei', 2900830, 0.0150195247142097), (133, 2, 'te', 2741528, 0.0141947123929007), (134, 2, 'in', 2716095, 0.0140630288498952), (135, 2, 'ie', 2661359, 0.0137796242019989), (138, 2, 'nd', 2096475, 0.0108548443291137), (139, 2, 'un', 1929248, 0.0099889990160884), (140, 2, 'ge', 1896304, 0.00981842603449867), (141, 2, 'st', 1732421, 0.00896989483179502), (142, 2, 'es', 1600673, 0.00828774788004407), ..

Download

Englische Wortliste csv txt sql

Dieser Datensatz enthält die häufigsten Wörter der englischen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: INSERT INTO englischeWortliste (id, wort, count, percent) VALUES (1, 'the', 46900999, 0.0658374919539244), (2, 'of', 25900356, 0.0363577432487905), (3, 'and', 21878171, 0.0307115826504907), (4, 'in', 18883923, 0.0265083933195331), (5, 'a', 15610342, 0.0219130890116649), (6, 'to', 15608703, 0.0219107882579153), (7, 'was', 8829758, 0.0123948131953458), (8, 'is', 8762885, 0.0123009399156011), (9, 'The', 7918111, 0.0111150845476187), (10, 'for', 6140305, 0.00861948124030667), (11, 'as', 5739654, 0.0080570655657742), (12, 'on', 5325161, 0.00747521912040407), (13, 'by', 5246009, 0.00736410913822358), (14, 'with', 5243163, 0.00736011405270097), (15, 'that', 4068801, 0.00571159802160333), (16, 'from', 3869104, 0.00543127244408796), (17, 'at', 3584642, 0.00503195760995836), (18, 'his', 3479258, 0.00488402433774656),

Details

Englische Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (10042, 3, 'and', 4373077, 0.00588827720839116), (10045, 3, 'ing', 3527528, 0.00474975920258473), (10054, 3, 'ion', 2805181, 0.00377713069029242), (10059, 3, 'ent', 2194825, 0.00295529624196124), (10061, 3, 'tio', 2177270, 0.00293165871936712), (10071, 3, 'for', 1777732, 0.00239368728660109), (10075, 3, 'ter', 1733631, 0.00233430600583076), (10077, 3, 'her', 1661225, 0.00223681250193162), (10078, 3, 'ati', 1645746, 0.00221597027964541), (10083, 3, 'The', 1568356, 0.00211176590063324), (10084, 3, 'ate', 1554016, 0.00209245732336183), (10089, 3, 'ere', 1381306, 0.00185990611132938), (10090, 3, 'ver', 1375222, 0.00185171410406862), (10095, 3, 'was', 1309621, 0.00176338342222889), (10101, 3, 'ted', 1291422, 0.00173887876408646), (10103, 3, 'ers', 1254601, 0.00168929988516661), (10104, 3, 'all', 1249597, 0.00168256208037818), (10108, 3, 'are', 1205797, 0.00162358609122282), (10109, 3, 'hat', 1197634, 0.00161259474420284), (10111, 3, 'tha', 1189543, 0.00160170034401435), ...

Details