Jump to content

Research:Revision scoring as a service/Word lists/fr

From Meta, a Wikimedia project coordination wiki

ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
fr français (Wikipedia) 250 19 - nltk.stopwords enchant.Dict nltk.SnowballStemmer See: Word lists translated no no started [1], not auto-labelled more badwords, informal words
Generated list [2]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. abduct
  2. abducted
  3. addleshaw
  4. ahah
  5. allez
  6. allo
  7. antissectes
  8. anus
  9. assassinez
  10. attentez
  11. baise
  12. baisé
  13. batar
  14. batard
  15. bete
  16. biatch
  17. bisous
  18. bitch
  19. bite
  20. bites
  21. bitte
  22. bla
  23. blabla
  24. blablabla
  25. bogoss
  26. boloss
  27. bolosse
  28. bonjour
  29. bonjours
  30. boufon
  31. branler
  32. branlette
  33. branleur
  34. caca
  35. cacas
  36. caliss
  37. cest
  38. chaffoins
  39. chate
  40. chatte
  41. chiant
  42. chiante
  43. chiasse
  44. chie
  45. chienne
  46. chier
  47. chiote
  48. chiotte
  49. chié
  50. cisla
  51. cislak
  52. con
  53. conar
  54. conard
  55. connar
  56. connard
  57. connards
  58. connasse
  59. conne
  60. connerie
  61. conneries
  62. coucou
  63. couille
  64. couilles
  65. couillon
  66. crapeaux
  67. criss
  68. crote
  69. crotte
  70. crèveront
  71. cul
  72. cyberduck
  73. debile
  74. defraud
  75. dhamapong
  76. diffament
  77. ditant
  78. dla
  79. dofus
  80. ducon
  81. débile
  82. déculpabilisante
  83. déguisez
  84. emmerde
  85. emporer
  86. encule
  87. enculer
  88. enculé
  89. enculés
  90. enmerde
  91. entrez
  92. etais
  93. etes
  94. facebook
  95. fdp
  96. fesse
  97. fesses
  98. fif
  99. fion
  100. formaté
  101. foutre
  102. fraudsters
  103. fuck
  104. fucker
  105. fucking
  106. geftapo
  107. geule
  108. goatse
  109. guele
  110. haha
  111. hahaha
  112. hahahaha
  113. hahahahaha
  114. hamster
  115. heathside
  116. heroin
  117. hihi
  118. hihihi
  119. holbock
  120. hotmail
  121. insérez
  122. jadore
  123. jai
  124. jellinek
  125. joconde
  126. jte
  127. jtm
  128. jvous
  129. kaka
  130. kiff
  131. kikoo
  132. kuvia
  133. laundering
  134. lol
  135. lolilol
  136. lool
  137. mapelle
  138. marde
  139. mdr
  140. mdrr
  141. mec
  142. mercuric
  143. merde
  144. merdes
  145. merdique
  146. mere
  147. meuf
  148. moche
  149. mére
  150. netnapa
  151. nike
  152. niker
  153. nimporte
  154. nique
  155. niquer
  156. noob
  157. ossi
  158. ouai
  159. ouais
  160. partouze
  161. pd
  162. pedophile
  163. penis
  164. petasse
  165. pipi
  166. pisse
  167. plote
  168. poop
  169. popo
  170. porno
  171. portugeuse
  172. pouri
  173. prostitué
  174. prout
  175. proute
  176. ptdr
  177. ptite
  178. pue
  179. pues
  180. puta
  181. putain
  182. pute
  183. putes
  184. putin
  185. pédophile
  186. pédé
  187. pénis
  188. pétasse
  189. pété
  190. quequette
  191. queu
  192. rael
  193. raeliennes
  194. raeliens
  195. raëlienne
  196. raëliens
  197. raëlisme
  198. remplacez
  199. renforcez
  200. ressortez
  201. rpz
  202. salebot
  203. salop
  204. salope
  205. salopes
  206. satanists
  207. sathorn
  208. shit
  209. sisi
  210. slt
  211. sodomie
  212. sodomiser
  213. sophonpanich
  214. suce
  215. sucer
  216. suceur
  217. suceuse
  218. suck
  219. sucks
  220. sucé
  221. suicidez
  222. swag
  223. swbaheft
  224. tabarnak
  225. taenjamras
  226. taime
  227. tapette
  228. terrorised
  229. terrorising
  230. teub
  231. tkt
  232. tournesol
  233. tres
  234. tro
  235. truc
  236. vagin
  237. voila
  238. vou
  239. voulez
  240. wesh
  241. wtf
  242. xd
  243. yaanawa
  244. yolo
  245. youporn
  246. zayn
  247. zboub
  248. zizi
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. ainsi
  2. alors
  3. ancien
  4. année
  5. années
  6. ans
  7. après
  8. article
  9. articles
  10. au
  11. aujourd
  12. aussi
  13. auteur
  14. autre
  15. autres
  16. aux
  17. avait
  18. avant
  19. avec
  20. avoir
  21. avril
  22. ayant
  23. bibliographie
  24. bien
  25. car
  26. category
  27. catégorie
  28. celle
  29. celui
  30. center
  31. cependant
  32. certains
  33. ces
  34. cet
  35. cette
  36. ci
  37. colonnes
  38. com
  39. comme
  40. commons
  41. connexes
  42. consulté
  43. contre
  44. cours
  45. dans
  46. date
  47. depuis
  48. dernier
  49. dernière
  50. des
  51. deux
  52. dit
  53. donc
  54. dont
  55. du
  56. dès
  57. début
  58. décembre
  59. effet
  60. elle
  61. encore
  62. entre
  63. er
  64. est
  65. exemple
  66. externes
  67. faire
  68. fait
  69. fichier
  70. fin
  71. fois
  72. font
  73. forme
  74. france
  75. français
  76. française
  77. fut
  78. grand
  79. grande
  80. groupe
  81. général
  82. histoire
  83. homme
  84. homonymes
  85. htm
  86. html
  87. http
  88. hui
  89. il
  90. ils
  91. image
  92. in
  93. index
  94. infobox
  95. janvier
  96. jean
  97. jour
  98. jpg
  99. juillet
  100. juin
  101. jusqu
  102. lang
  103. langue
  104. le
  105. left
  106. les
  107. leur
  108. leurs
  109. lien
  110. liens
  111. lieu
  112. ligne
  113. liste
  114. lors
  115. lui
  116. légende
  117. mais
  118. mars
  119. moins
  120. mois
  121. monde
  122. mort
  123. même
  124. naissance
  125. name
  126. national
  127. nom
  128. nombre
  129. nombreux
  130. non
  131. nord
  132. notamment
  133. notes
  134. nouveau
  135. nouvelle
  136. octobre
  137. of
  138. on
  139. ont
  140. org
  141. origine
  142. ou
  143. page
  144. pages
  145. palette
  146. par
  147. paris
  148. part
  149. partie
  150. partir
  151. pas
  152. pays
  153. pendant
  154. peu
  155. peut
  156. php
  157. pierre
  158. place
  159. plus
  160. plusieurs
  161. png
  162. politique
  163. population
  164. portail
  165. pour
  166. premier
  167. première
  168. projets
  169. près
  170. puis
  171. px
  172. période
  173. quatre
  174. que
  175. quelques
  176. qui
  177. ref
  178. references
  179. reste
  180. right
  181. référence
  182. références
  183. saint
  184. sans
  185. selon
  186. septembre
  187. ses
  188. site
  189. siècle
  190. soit
  191. son
  192. sont
  193. source
  194. sous
  195. souvent
  196. style
  197. sud
  198. suite
  199. sur
  200. svg
  201. taille
  202. temps
  203. texte
  204. the
  205. thumb
  206. titre
  207. toujours
  208. tous
  209. tout
  210. toute
  211. toutes
  212. trois
  213. trouve
  214. très
  215. type
  216. un
  217. une
  218. unité
  219. url
  220. vers
  221. vie
  222. ville
  223. voir
  224. web
  225. www
  226. âge
  227. ébauche
  228. éditeur
  229. également
  230. époque
  231. était
  232. étant
  233. état
  234. été
  235. être
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. anus
  2. baise
  3. baisé
  4. baiz
  5. batar
  6. batard
  7. bite
  8. bites
  9. bitte
  10. branler
  11. branlette
  12. branleur
  13. caca
  14. cacas
  15. caliss
  16. chiant
  17. chiante
  18. chiasse
  19. chie
  20. chienne
  21. chier
  22. chiote
  23. chiotte
  24. chié
  25. con
  26. conar
  27. conard
  28. connar
  29. connard
  30. connards
  31. connasse
  32. conne
  33. connerie
  34. conneries
  35. couille
  36. couilles
  37. couillon
  38. cul
  39. debile
  40. ducon
  41. débile
  42. emmerde
  43. encule
  44. enculer
  45. enculé
  46. enculés
  47. enmerde
  48. fesse
  49. fesses
  50. fion
  51. Foutre
  52. fuck
  53. fucker
  54. fucking
  55. gay
  56. herpes
  57. hiv
  58. homosexuel
  59. idiot
  60. lesbien
  61. marde
  62. merde
  63. merdes
  64. merdique
  65. nike
  66. niker
  67. nique
  68. niquer
  69. pd
  70. pedophile
  71. penis
  72. petasse
  73. pipi
  74. pisse
  75. poop
  76. pouri
  77. pourri
  78. prostitué
  79. prostituee
  80. prout
  81. proute
  82. pue
  83. pues
  84. puta
  85. Putain
  86. pute
  87. putes
  88. putin
  89. pédophile
  90. pédé
  91. pénis
  92. pétasse
  93. quequette
  94. queu
  95. queue
  96. salaud
  97. salo
  98. Salop
  99. salope
  100. salopes
  101. shit
  102. sodomie
  103. sodomiser
  104. stupide
  105. suce
  106. sucer
  107. suceur
  108. suceuse
  109. suck
  110. sucks
  111. sucé
  112. tapette
  113. teub
  114. vagin
  115. zboub
  116. zizi
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. ahah
  2. allez
  3. allo
  4. bisous
  5. bla
  6. blabla
  7. blablabla
  8. bonjour
  9. coucou
  10. etais
  11. etes
  12. haha
  13. hahaha
  14. hahahaha
  15. hahahahaha
  16. hihi
  17. hihihi
  18. insérez
  19. jadore
  20. jai
  21. kikoo
  22. lol
  23. lool
  24. mdr
  25. mdrr
  26. moche
  27. ouai
  28. ouais
  29. ptdr
  30. salebot
  31. truc
  32. voila
  33. voulez