Deutsch

Deutsche Trigramme

csv txtsql

Das Angebot wurde von einem Nutzer am Mittwoch, 18. Juli 2012, 09:17 Uhr vor 2527 Tagen eingestellt.

Beschreibung des Datensatzes


Der Datensatz enthält die häufigsten Buchstabentrigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(9015, 3, 'der', 1466004, 0.00765538408168634),
(9017, 3, 'ein', 1241199, 0.00648146598972786),
(9018, 3, 'sch', 1205611, 0.00629562760954673),
(9019, 3, 'ich', 1195695, 0.00624384685822955),
(9022, 3, 'che', 1014516, 0.00529774109553323),
(9023, 3, 'die', 913767, 0.00477163592061842),
(9024, 3, 'und', 904872, 0.00472518676945198),
(9028, 3, 'den', 821339, 0.00428898250364131),
(9030, 3, 'ine', 775831, 0.0040513424843853),
(9031, 3, 'ten', 764684, 0.00399313352563856),
(9033, 3, 'ung', 706683, 0.00369025581717263),
(9034, 3, 'nde', 684003, 0.00357182223106192),
(9035, 3, 'gen', 647717, 0.00338233893716363),
(9038, 3, 'ter', 600607, 0.00313633337095219),
(9039, 3, 'hen', 598021, 0.00312282943560464),
(9040, 3, 'cht', 576579, 0.00301086061049944),

...

3gramme_de.csv.gz
Größe: 913.54K
Download als csv
3gramme_de.sql.gz
Größe: 910.88K
Download als sql


Preis: 10,00 €


Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Genossenschaftsverzeichnis Deutsche Genossenschaften xls

Sie erhalten eine Liste mit über 5.300 in Deutschland eingetragenen Genossenschaften. Neben dem Name der Genossenschaft an sich enthält die Liste auch die zugehörige Adresse (Postanschrift). Die Adresse ist bei fast allen Dateneinträgen vollständig gepflegt. Die Genossenschaften stammen aus allen Bundesländern in Deutschland und sind geographisch sonst nicht beschränkt. Mögliche Anwendungen sind: * Marketing und Vertrieb * Validierung von eigenen Datenbanken * Überprüfung von Eingaben auf Webseiten * Adress- und Branchenverzeichnisse * Wirtschaftsinformationen Welche Datenfelder liegen zu den Datensätzen vor Name und Postanschrift In welchem Dateiformat werden die Daten bereitgestellt Als Microsoft Excel .xlsx Wie viele Einträge hat der Datensatz über 5.300 Datenzeilen (also eingetragene Genossenschaften) Wann wurden die Daten erhoben Die Daten sind im November 2012 gesammelt worden. Ein Garantie auf Korrektheit und Vollständigkeit kann allerdings nicht gegeben werden. Auszug aus den Datensatz: Winzergenossenschaft Britzingen/Markgräflerland eG Markgräfler Str. 25-29, 79379 Müllheim Weingärtnergenossenschaft Heuholz eG Dachsteiger Str. 2, 74629 Pfedelbach Wohnungsgenossenschaft Yeni Yol eG Ganghoferstraße 38, 82291 Mammendorf Volksbank Griesheim eG Alte Falterstraße 10, 65933 Frankfurt am Main Raiffeisenbank Marktheidenfeld eG Bronnbacher Str. 18, 97828 Marktheidenfeld Obstbaugenossenschaft Egringen e.G. Feuerbachstr. 33, 79588 Efringen-Kirchen Baugenossenschaft Neues Heim eG. Prevorster Str. 17, 70437 Stuttgart ..

Details

Englische Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe, count, percent) VALUES (10042, 3, 'and', 4373077, 0.00588827720839116), (10045, 3, 'ing', 3527528, 0.00474975920258473), (10054, 3, 'ion', 2805181, 0.00377713069029242), (10059, 3, 'ent', 2194825, 0.00295529624196124), (10061, 3, 'tio', 2177270, 0.00293165871936712), (10071, 3, 'for', 1777732, 0.00239368728660109), (10075, 3, 'ter', 1733631, 0.00233430600583076), (10077, 3, 'her', 1661225, 0.00223681250193162), (10078, 3, 'ati', 1645746, 0.00221597027964541), (10083, 3, 'The', 1568356, 0.00211176590063324), (10084, 3, 'ate', 1554016, 0.00209245732336183), (10089, 3, 'ere', 1381306, 0.00185990611132938), (10090, 3, 'ver', 1375222, 0.00185171410406862), (10095, 3, 'was', 1309621, 0.00176338342222889), (10101, 3, 'ted', 1291422, 0.00173887876408646), (10103, 3, 'ers', 1254601, 0.00168929988516661), (10104, 3, 'all', 1249597, 0.00168256208037818), (10108, 3, 'are', 1205797, 0.00162358609122282), (10109, 3, 'hat', 1197634, 0.00161259474420284), (10111, 3, 'tha', 1189543, 0.00160170034401435), ...

Details

Deutsche Wortliste csv txt sql

Dieser Datensatz enthält die häufigsten Wörter der deutschen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: "1","der","9053340","0.0385585367860393" "2","und","7090046","0.0301967891966624" "3","die","6246866","0.0266056518874204" "4","in","5123896","0.0218228777891739" "5","von","3451023","0.0146980448425628" "6","den","2832006","0.0120616267067496" "7","des","2484384","0.0105810907195187" "8","im","2212037","0.00942115396489916" "9","mit","2184922","0.00930567009651981" "10","ist","2013322","0.00857481884024485" "11","dem","1852972","0.00789188178346344" "12","wurde","1822873","0.00776368893985843" "13","das","1796310","0.00765055606153423" "14","Die","1786747","0.00760982686244474" "15","zu","1722825","0.00733758051044236" "16","er","1682782","0.007167035773525" "17","als","1658328","0.00706288521046587" "18","ein","1564235","0.00666213936398172" "19","eine","1550149","0.00660214652717584" "20","auf","1543140","0.00657229491613137" "21","sich","1483633","0.00631885222553024" "22","an","1259199","0.00536297885227374" "23","war","1238755","0.00527590703943408" "24","auch","1093288","0.00465635727430268"

Details