Appréhender un texte par son lexique, c'est essayer de comprendre son contenu en suivant les traces laissées par les locuteurs.
L'analyse lexicale s'appuie sur la consultation du lexique. Le lexique est la liste de l'ensemble des formes textuelles évoquées dans le corpus. Celui-ci peut être construit selon plusieurs démarches et en plusieurs niveaux :
- le lexique brut : toutes les formes textuelles,
- le lexique réduit : il exclut les "mots-outils" du langage: les articles : le, la, les, un, ...; les pronoms : je, tu, me, ce, celui, ça, ...; les adverbes : non, ne, plus, trop, ..., les prépositions : dans, pour, avec, de, ... et les conjonctions : mais, ou, et, etc.
- le lexique lemmatisé : regroupe les formes textuelles selon leur "racine grammaticale". Par ce procédé de lemmatisation, on va simplifier le texte en ramenant le singulier et le pluriel d’un nom à son singulier, toutes les formes d’un adjectif à son masculin singulier, toutes les formes conjuguées d’un verbe à son infinitif.
- le lexique relié : on identifie les segments fréquemment évoquées dans le texte afin de repérer les expressions du corpus, comme « pomme de terre », ou « fruits de mer » par exemple,
A partir de l'un de ses niveaux, l'analyse lexicale consiste à dénombrer les différentes formes du lexique et à les classer du plus fréquent au moins fréquent. L'image en haut de l'article donne des extraits de lexiques issus d'une question ouverte : "Que feriez-vous si vous gagnez le gros lot au Loto?".
Sur la base du lexique qui lui convient, le chargé d'études pourra opérer des regroupements, manuellement ou automatiquement.