Deutsch

Deutsche Trigramme

csv txtsql

Das Angebot wurde von einem Nutzer am Mittwoch, 18. Juli 2012, 09:17 Uhr vor 2837 Tagen eingestellt.

Beschreibung des Datensatzes


Der Datensatz enthält die häufigsten Buchstabentrigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(9015, 3, 'der', 1466004, 0.00765538408168634),
(9017, 3, 'ein', 1241199, 0.00648146598972786),
(9018, 3, 'sch', 1205611, 0.00629562760954673),
(9019, 3, 'ich', 1195695, 0.00624384685822955),
(9022, 3, 'che', 1014516, 0.00529774109553323),
(9023, 3, 'die', 913767, 0.00477163592061842),
(9024, 3, 'und', 904872, 0.00472518676945198),
(9028, 3, 'den', 821339, 0.00428898250364131),
(9030, 3, 'ine', 775831, 0.0040513424843853),
(9031, 3, 'ten', 764684, 0.00399313352563856),
(9033, 3, 'ung', 706683, 0.00369025581717263),
(9034, 3, 'nde', 684003, 0.00357182223106192),
(9035, 3, 'gen', 647717, 0.00338233893716363),
(9038, 3, 'ter', 600607, 0.00313633337095219),
(9039, 3, 'hen', 598021, 0.00312282943560464),
(9040, 3, 'cht', 576579, 0.00301086061049944),

...

3gramme_de.csv.gz
Größe: 913.54K
Download als csv
3gramme_de.sql.gz
Größe: 910.88K
Download als sql


Preis: 10,00 €


Schlüsselworte:


Suchbegriffe für diesen Datensatz:



Noch keine Kommentare zu diesem Datensatz vorhanden:





Genossenschaftsverzeichnis Deutsche Genossenschaften xls

Sie erhalten eine Liste mit über 5.300 in Deutschland eingetragenen Genossenschaften. Neben dem Name der Genossenschaft an sich enthält die Liste auch die zugehörige Adresse (Postanschrift). Die Adresse ist bei fast allen Dateneinträgen vollständig gepflegt. Die Genossenschaften stammen aus allen Bundesländern in Deutschland und sind geographisch sonst nicht beschränkt. Mögliche Anwendung

Details

Deutsche Wortliste csv txt sql

Dieser Datensatz enthält die häufigsten Wörter der deutschen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: "1","der","9053340","0.0385585367860393" "2","und","7090046","0.0301967891966624" "3","die"

Details

Englische Trigramme csv txt sql

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8. Ausschnitt aus den Daten: INSERT INTO ngramme (id, n, buchstabe

Details