Filterliste SPAM-Wörter deutsch

Das Angebot wurde vom Verkäufer am Sonntag, 24. März 2013, 05:17 Uhr vor 2452 Tagen inseriert.
Beschreibung des Datensatzes
Die Datei enthält eine Wortliste mit
- Beleidigungen und Schimpfworten
- Sexuell expliziten Vokabular
- Werbe- und Spamvokabular
Es sind vorwiegend deutsche Substantive enthalten - in der Summe knapp 2.000 Wörter.
Anwendungsbereiche finden sich in der automatischen Erkennung und Filterung von nichtkonformen Nutzerbeiträgen in:
- Foren
- Blogs
- Emails
- Chats
- IRC
- Mailinglisten
Armleuchter
Arsch
Arsch mit Ohren
Arschbacke
Arschbombe
Arschgeige
Arschgesicht
Arschi
Startguthaben
Poker
Jackpott
Gewinnglücksnummer
Gewinnanspruch
Hitler
Nazi
Scheiße
Arschloch
Nutte
Sex
Viagra
..
bad_word_list.txt Größe: 18.51K |
![]() |
Schlüsselworte:
Suchbegriffe für diesen Datensatz:
Noch keine Kommentare zu diesem Datensatz vorhanden:
Deutsche Wortliste
Dieser Datensatz enthält die häufigsten Wörter der deutschen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: "1","der","9053340","0.0385585367860393" "2","und","7090046","0.0301967891966624" "3","die","6246866","0.0266056518874204" "4","in","5123896","0.0218228777891739" "5","von","3451023","0.0146980448425628" "6","den","2832006","0.0120616267067496" "7","des","2484384","0.0105810907195187" "8","im","2212037","0.00942115396489916" "9","mit","2184922","0.00930567009651981" "10","ist","2013322","0.00857481884024485" "11","dem","1852972","0.00789188178346344" "12","wurde","1822873","0.00776368893985843" "13","das","1796310","0.00765055606153423" "14","Die","1786747","0.00760982686244474" "15","zu","1722825","0.00733758051044236" "16","er","1682782","0.007167035773525" "17","als","1658328","0.00706288521046587" "18","ein","1564235","0.00666213936398172" "19","eine","1550149","0.00660214652717584" "20","auf","1543140","0.00657229491613137" "21","sich","1483633","0.00631885222553024" "22","an","1259199","0.00536297885227374" "23","war","1238755","0.00527590703943408" "24","auch","1093288","0.00465635727430268"
DetailsEnglische Wortliste
Dieser Datensatz enthält die häufigsten Wörter der englischen Sprache. Die Datenbank enthält mehr als 1 Millionen Worte nach ihrer Häufigkeit geordnet. Das Datenformat ist SQL und CSV. Die Datenfelder enthalten den Rangplatz, das Wort, die absolute und relative Häufigkeit. Ausschnitt aus den Daten: INSERT INTO englischeWortliste (id, wort, count, percent) VALUES (1, 'the', 46900999, 0.0658374919539244), (2, 'of', 25900356, 0.0363577432487905), (3, 'and', 21878171, 0.0307115826504907), (4, 'in', 18883923, 0.0265083933195331), (5, 'a', 15610342, 0.0219130890116649), (6, 'to', 15608703, 0.0219107882579153), (7, 'was', 8829758, 0.0123948131953458), (8, 'is', 8762885, 0.0123009399156011), (9, 'The', 7918111, 0.0111150845476187), (10, 'for', 6140305, 0.00861948124030667), (11, 'as', 5739654, 0.0080570655657742), (12, 'on', 5325161, 0.00747521912040407), (13, 'by', 5246009, 0.00736410913822358), (14, 'with', 5243163, 0.00736011405270097), (15, 'that', 4068801, 0.00571159802160333), (16, 'from', 3869104, 0.00543127244408796), (17, 'at', 3584642, 0.00503195760995836), (18, 'his', 3479258, 0.00488402433774656),
DetailsDeutsche Wortliste mit Wortarten
Dieser Datensatz enthält die häufigsten 840.000 Wörter der deutschen Sprache. Die Liste ist ansteigend nach Häufigkeit geordnet. Welche Datenfelder sind vorhanden Die Datenfelder enthalten den Rangplatz, das Wort selbst, die absolute und relative Häufigkeit sowie die Wortart (also Nomen, Artikel, Adjektiv, Adverb etc.) Wobei ein Wort je nach Bedeutung im Satz auch mehrere Wortarten zugeordnet haben kann. So kann man sich z.B. nur alle deutschen Substantive/Nomen oder Adjektive filtern und eine getrennte Liste erzeugen. Hinweis: Nicht bei jedem Wort ist die Wortart vermerkt, aber bei mehr als 80% der Einträge. In welchem Datenformat wird geliefert Das Datenformat ist SQL und CSV. Welche Verwendungen sind möglich Wortartbestimmung, Häufigkeitsanalyse, Namenerkennung, Stoppwortgenerierung, Rechtschreibprüfung, Tagging etc.
Details