CRTXT1617

  • Document source, issu du cours technique : écriture / création textuelle 3MS1

Travail

Neutralité

Essayer de ne pas avoir de point de vu éditorial sur les phrases, les prendre ainsi sans exceptions ni tri. Comment alors ne pas hierarchiser les textes ? Peut être en les organisant aleatoirement …

Statistiques

L'approche statistique n'est pas neutre non plus. L'analyse lexicographique choisie prendra en compte nottament le mot, et sa répitition.

"Aujourd'hui l'apparition des ordinateurs soulage considérablement une telle entreprise."

Wikipedia, https://fr.wikipedia.org/wiki/Concordance_%28livre%29

Technique

Statistiques lexicographiques

cat crtxt1617-latest.txt | tr " " "\n" | tr "[:upper:]" "[:lower:]" | sort | uniq -c | sort -n |sed 's/^ //g' | tr " " ","
  • cat /Users/martincampillo/Desktop/crtxt1617-latest.txt, ouvrir le ~flux~ du document.
  • tr " " "\n, mettre tous les mots à la ligne, rechercher/remplacer (tr "Str1" "Str2"), -d delete, -s ?
  • tr " " "\n" | tr "[:upper:]" "[:lower:]", tout mettre en minuscule.
  • sort, trier,

REGEX

  • [.,\/'""''¿?¡!&]
  • [a-zA-ZéèêÉÈÊàâäÀÂÄôûÔÛîïÎÏçÇùœÙ0-9]"
  • [a-zA-ZéèêÉÈÊàâäÀÂÄôûÔÛîïÎÏçÇùœÙ'",’-0-9\s]*..[.|?|!]

a c e i o u [a-zA-ZâÂàÀäÄçÇéÉêÊëËèÈîÎïÏìÌ $€¥

Echantillon 1

Commencer par compter UNIQUEMENT les mots :

cat crtxt1617-latest.txt | tr -d "." | tr -d "," | tr "  " " " | tr " " "\n" | sort | uniq -c | sort -n

Compter ensuite la ponctuation

cat crtxt1617-latest.txt | tr "[a-zA-Z0-9-êéîô'àâéèû]" " " | tr " " "\n" | sort | uniq -c | sort -n

cat crtxt1617.txt |
tr "." " " |
tr "," " " |
tr "?" " " |
tr "\!" " " |
tr "\""  " " |
tr "\'"  " " |
tr "’"  " " |
tr "–" " " |
tr "-" " " |
tr "(" " " |
tr ")" " " |
tr "[" " " |
tr "]" " " |
tr "…" " " |
tr " " "\n"|
tr "[:upper:]" "[:lower:]" |
sort |
uniq -c |
sort -n