Seguidors

dimecres, 1 de juny del 2016

POST 16: ANÀLISI LEXICOMÈTRICA (1)



Introducció
I arribem al final d’aquest passeig per les Escriptures Hipertextuals. Es tractava de caminar tot reflexionant sobre la lectura I l’escriptura com un dels nostres mecanismes de creació de la nostra pròpia subjectivitat. Tal com ens ha comentat Joan Campàs al començament d’aquest recorregut: “...La nostra aprehensió del món està mediada pel llenguatge; el món és llenguatge. Recordem Wittgenstein: els límits del meu llenguatge són els límits del meu món. Aquesta alteritat (jo - món) o el món com l'Altre és el que delimita el nostre jo, i aquesta delimitació és el que permet la diferenciació. Ens fem conscients del jo i del món a través del llenguatge. És, doncs, el llenguatge el que construeix la subjectivitat; un individu incapaç de simbolitzar es deshumanitza. La consciència d'un mateix només és possible en el diàleg: el subjecte existeix quan s'adreça a l'altre (el jo existeix només si hi ha un tu)...”.

I una vessant pràctica d’aquest passeig per determinar si el llenguatge oral, l'escriptura lineal i la hipertextualitat, permeten construir diferents models de subjectivitat, és realitzar una anàlisi lexicomètrica de textos, “...d'un conjunt de blogs feministes, activistes en general o polítics...”.


Anàlisi Lexicomètrica
Però, què és una anàlisi lexicomètrica? Doncs una anàlisi que ens permet extreure dades d'un o més corpus de textos amb diferents eines o paràmetres com la freqüència d’ús de les paraules, les concordances (d'una sola o vàries paraules juntes) o les expressions regulars.

La historia de l’anàlisi quantitatiu es remunta al segle XVIII, on ja es contaven els símbols religiosos presents a diferents himnes, o s’estudiava el discurs antifederalista nord-americà. Seria ja al segle XX quan es va protocol·litzar l’anàlisi textual, creant tot un procediment científic. La incorporació de la informàtica, com no podia ser d’una altra manera, ha suposat un important avanç en aquest camp a l’hora de treballar amb grans quantitats de text amb una velocitat fins llavors impensable.

L’anàlisi estadístic de dades textuals té una funció de recompte de les unitats verbals bàsiques (generalment paraules), i el posterior estudi i anàlisi estadístic a partir dels resultats d’aquest càlcul. Mitjançant l’anàlisi del text amb eines lexicomètriques estem determinant el pes temàtic que tenen determinades unitats lèxiques d’un text especialitzat, i si es tracta i interpreta correctament aquesta informació obtindrem els principals indicadors dels termes més rellevants de document.

El programa AntConc
Per a fer aquest anàlisi utilitzem l’AntConc, un software freeware, que ens podem descarregar gratuïtament des de la web del seu creador i desenvolupador, en Laurence Anthony. En aquesta pàgina podem trobar diferents softwares de l’AntConc amb tutorials que ens van bé per a entendre millor el seu funcionament, així com altres aplicacions i eines diferents. La versió que he utilitzat és  la de AntConc 3.4.4w (Windows)

Un cop instal·lat el programa cal seguir les instruccions i tenir molt present que el corpus dels textos a analitzar han d'estar en extensió .txt o .html, un aspecte molt important a tenir en compte.

Aquest software ens dona com a resultat unes línies de concordança kwic (key word in context) a partir d’un text escollit per l’usuari. A més, el programa pot comparar les paraules d’un text per tal de generar un llistat de paraules clau. A continuació resumim algunes de les seves principals característiques:
-  Llista per ordre alfabètic totes les aparicions en el text de la paraula buscada acompanyada del context que la precedeix i la segueix.
-  Mostrar índex i llistes de paraules.
-  Mostrar la freqüències d’aparició de paraules.
-  Concordances.
-  Anàlisis de paraules clau.
-  Estadístiques sobre la longitud d’una paraula.

Blogs triats
L'anàlisi lexicomètrica sobre pàgines feministes i de política reivindicativa és un tema d'actualitat que té un ventall de temes que van des de la desigualtat entre homes i dones, l'afectació de la crisi sobre les dones, l'avortament, les agressions masclistes, el model patriarcal de la societat, la dona i l'art... entre tants d'altres. Com es pot veure el tema és complex i ampli, fet que marca la lluita de les dones en una societat patriarcal i masclista. Però he volgut analitzar, i especialment comparar, com es relacionava el feminisme amb el procés independentista de Catalunya des de l’òptica de dos moviments/partits/grups de l’esquerra independentista i del moviment feminista. Per aquest motiu he escollit els següents blogs i articles:

TEXT 1: Del blog, Llibertat.cat, que és el portal digital de l’Esquerra Independentista, l’article de Blanca Serra, lingüista i actualment membre de la CUP de Barcelona, i que es titula Dones, Lluita Feminista i Independència. L’article està publicat el 21 d’octubre de 2014.
TEXT 2: Del blog, Feministes per la independència,  grup no adscrit a cap partit polític, he escollit la seva declaració d’intencions anomenat Qui som. La seva publicació és de data 1 d’octubre de 2014.

Tots dos textos, doncs, coincideixen en el temps: octubre de 2014.

Anàlisi
El primer pas ha estat convertir els textos en format .txt i codificats amb la norma Unicode TFT-8

En segon lloc he aplicat l’anàlisi de freqüència (opció Word List), la qual ens permet comptar les paraules d’un corpus i mostrar-les en una llista ordenada des de les més freqüents  fins a les menys freqüents o a la inversa.

En aquest punt  també he aplicat el filtre d’eliminar la distinció entre majúscules i minúscules.

I a la vegada també he aplicat l’opció Stopwords. Una llista de Stopwords, està formada per un conjunt de paraules amb significat gramatical però sense cap significat lèxic, les quals solen aparèixer amb freqüències molt alta en un text. Com a llista de Stopwords he triat la de la web Ranks NL i he aplicat la que hi ha de català. Però, a més, he afegit (l’AntCont també ho permet), les següents formes: l, d, del, dels, és, ha, el, al, són, més, als, cap, li, hem, hi, s, aquest, aquesta, pel.

El resultat, limitat a les primeres 40 paraules, és el següent:
"Dones, Lluita Feminista e Independència" (TEXT 1)

"Feministes per la independència" (TEXT 2)
Word Types: 496

Word Types: 379
Word Tokens: 1338

Word Tokens: 969
Desprès d’aplicar Stopwords

Desprès d’aplicar Stopwords
Word Types: 422

Word Types: 319
Word Tokens: 664

Word Tokens: 502
Rank
Freq
Word

Rank
Freq
Word
1
21
dones

1
25
dones
2
20
no

2
11
feministes
3
18
lluita

3
10
país
4
9
món

4
9
no
5
6
dret

5
6
decidir
6
6
país

6
6
procés
7
6
política

7
6
volem
8
6
sistema

8
5
dret
9
6
social

9
5
nacional
10
5
emancipació

10
5
què
11
5
entorn

11
4
debats
12
5
fins

12
4
dona
13
5
nostre

13
4
feminista
14
5
vista

14
4
independència
15
4
dominació

15
4
moviment
16
4
educació

16
4
nostres
17
4
gira

17
4
nou
18
4
independentistes

18
4
transició
19
4
justícia

19
3
any
20
4
millor

20
3
aportacions
21
4
nostra

21
3
ara
22
4
sobre

22
3
ca
23
4
tres

23
3
catalunya
24
3
altres

24
3
espais
25
3
ara

25
3
iniciativa
26
3
casa

26
3
lliure
27
3
catalana

27
3
n
28
3
contra

28
3
nos
29
3
feminista

29
3
participar
30
3
fet

30
3
plataformes
31
3
igualtat

31
3
política
32
3
independència

32
3
presència
33
3
invertir

33
3
propostes
34
3
isabel

34
3
societat
35
3
nacional

35
3
36
3
patriarcal

36
3
37
3
perfil

37
3
via
38
3
població

38
2
aconseguir
39
3
polític

39
2
activament
40
3
polítiques

40
2
afegir

Cap comentari:

Publica un comentari a l'entrada