Els meus llibres i altres dèries: POST 16: ANÀLISI LEXICOMÈTRICA (1)

dimecres, 1 de juny del 2016

POST 16: ANÀLISI LEXICOMÈTRICA (1)

Introducció

I arribem al final d’aquest passeig per les Escriptures Hipertextuals. Es tractava de caminar tot reflexionant sobre la lectura i l’escriptura com un dels nostres mecanismes de creació de la nostra pròpia subjectivitat. Tal com ens ha comentat Joan Campàs al començament d’aquest recorregut: “...La nostra aprehensió del món està mediada pel llenguatge; el món és llenguatge. Recordem Wittgenstein: els límits del meu llenguatge són els límits del meu món. Aquesta alteritat (jo - món) o el món com l'Altre és el que delimita el nostre jo, i aquesta delimitació és el que permet la diferenciació. Ens fem conscients del jo i del món a través del llenguatge. És, doncs, el llenguatge el que construeix la subjectivitat; un individu incapaç de simbolitzar es deshumanitza. La consciència d'un mateix només és possible en el diàleg: el subjecte existeix quan s'adreça a l'altre (el jo existeix només si hi ha un tu)...”.

I un vessant pràctic d’aquest passeig per determinar si el llenguatge oral, l'escriptura lineal i la hipertextualitat, permeten construir diferents models de subjectivitat, és dur a terme una anàlisi lexicomètrica de textos, “...d'un conjunt de blogs feministes, activistes en general o polítics...”.

Anàlisi Lexicomètrica

Però, què és una anàlisi lexicomètrica? Doncs una anàlisi que ens permet extreure dades d'un o més corpus de textos amb diferents eines o paràmetres com la freqüència d’ús de les paraules, les concordances (d'una sola o diverses paraules juntes) o les expressions regulars.

La història de l’anàlisi quantitativa es remunta al segle XVIII, on ja es contaven els símbols religiosos presents a diferents himnes, o s’estudiava el discurs antifederalista nord-americà. Seria ja al segle XX quan es va protocol·litzar l’anàlisi textual, creant tot un procediment científic. La incorporació de la informàtica, com no podia ser d’una altra manera, ha suposat un important avanç en aquest camp a l’hora de treballar amb grans quantitats de text amb una velocitat fins llavors impensable.

L’anàlisi estadística de dades textuals té una funció de recompte de les unitats verbals bàsiques (generalment paraules), i el posterior estudi i anàlisi estadística a partir dels resultats d’aquest càlcul. Mitjançant l’anàlisi del text amb eines lexicomètriques estem determinant el pes temàtic que tenen determinades unitats lèxiques d’un text especialitzat, i si es tracta i interpreta correctament aquesta informació obtindrem els principals indicadors dels termes més rellevants de document.

El programa AntConc

Per a fer aquesta anàlisi utilitzem l’AntConc, un programari freeware, que ens podem descarregar gratuïtament des de la web del seu creador i desenvolupador, en Laurence Anthony. En aquesta pàgina podem trobar diferents softwares de l’AntConc amb tutorials que ens van bé per a entendre millor el seu funcionament, així com altres aplicacions i eines diferents. La versió que he utilitzat és la de AntConc 3.4.4w (Windows)

Un cop instal·lat el programa cal seguir les instruccions i tenir molt present que el corpus dels textos a analitzar han d'estar en extensió .txt o .html, un aspecte molt important a tenir en compte.

Aquest programari ens dona com a resultat unes línies de concordança kwic (key word in context) a partir d’un text escollit per l’usuari. A més, el programa pot comparar les paraules d’un text per tal de generar un llistat de paraules clau. A continuació resumim algunes de les seves principals característiques:

- Llista per ordre alfabètic totes les aparicions en el text de la paraula buscada acompanyada del context que la precedeix i la segueix.

- Mostrar índex i llistes de paraules.

- Mostrar les freqüències d’aparició de paraules.

- Concordances.

- Anàlisis de paraules clau.

- Estadístiques sobre la longitud d’una paraula.

Blogs triats

L'anàlisi lexicomètrica sobre pàgines feministes i de política reivindicativa és un tema d'actualitat que té un ventall de temes que van des de la desigualtat entre homes i dones, l'afectació de la crisi sobre les dones, l'avortament, les agressions masclistes, el model patriarcal de la societat, la dona i l'art... entre tants d'altres. Com es pot veure el tema és complex i ampli, fet que marca la lluita de les dones en una societat patriarcal i masclista. Però he volgut analitzar, i especialment comparar, com es relacionava el feminisme amb el procés independentista de Catalunya des de l’òptica de dos moviments/partits/grups de l’esquerra independentista i del moviment feminista. Per aquest motiu he escollit els següents blogs i articles:

TEXT 1: Del blog, Llibertat.cat, que és el portal digital de l’Esquerra Independentista, l’article de Blanca Serra, lingüista i actualment membre de la CUP de Barcelona, i que es titula Dones, Lluita Feminista i Independència. L’article està publicat el 21 d’octubre de 2014.

TEXT 2: Del blog, Feministes per la independència, grup no adscrit a cap partit polític, he escollit la seva declaració d’intencions anomenada Qui som. La seva publicació és de data 1 d’octubre de 2014.

Tots dos textos, doncs, coincideixen en el temps: octubre de 2014.

Anàlisi

El primer pas ha estat convertir els textos en format .txt i codificats amb la norma Unicode TFT-8

En segon lloc, he aplicat l’anàlisi de freqüència (opció Word List), la qual ens permet comptar les paraules d’un corpus i mostrar-les en una llista ordenada des de les més freqüents fins a les menys freqüents o a la inversa.

En aquest punt també he aplicat el filtre d’eliminar la distinció entre majúscules i minúscules.

I a la vegada també he aplicat l’opció Stopwords. Una llista de Stopwords, està formada per un conjunt de paraules amb significat gramatical, però sense cap significat lèxic, les quals solen aparèixer amb freqüències molt altes en un text. Com a llista de Stopwords he triat la de la web Ranks NL i he aplicat la que hi ha de català. Però, a més, he afegit (l’AntCont també ho permet), les següents formes: l, d, del, dels, és, ha, el, al, són, més, als, cap, li, hem, hi, s, aquest, aquesta, pel.

El resultat, limitat a les primeres 40 paraules, és el següent:

"Dones, Lluita Feminista e Independència" (TEXT 1)			"Feministes per la independència" (TEXT 2)
Word Types: 496			Word Types: 379
Word Tokens: 1338			Word Tokens: 969
Desprès d’aplicar Stopwords			Desprès d’aplicar Stopwords
Word Types: 422			Word Types: 319
Word Tokens: 664			Word Tokens: 502
Rank	Freq	Word	Rank	Freq	Word
1	21	dones	1	25	dones
2	20	no	2	11	feministes
3	18	lluita	3	10	país
4	9	món	4	9	no
5	6	dret	5	6	decidir
6	6	país	6	6	procés
7	6	política	7	6	volem
8	6	sistema	8	5	dret
9	6	social	9	5	nacional
10	5	emancipació	10	5	què
11	5	entorn	11	4	debats
12	5	fins	12	4	dona
13	5	nostre	13	4	feminista
14	5	vista	14	4	independència
15	4	dominació	15	4	moviment
16	4	educació	16	4	nostres
17	4	gira	17	4	nou
18	4	independentistes	18	4	transició
19	4	justícia	19	3	any
20	4	millor	20	3	aportacions
21	4	nostra	21	3	ara
22	4	sobre	22	3	ca
23	4	tres	23	3	catalunya
24	3	altres	24	3	espais
25	3	ara	25	3	iniciativa
26	3	casa	26	3	lliure
27	3	catalana	27	3	n
28	3	contra	28	3	nos
29	3	feminista	29	3	participar
30	3	fet	30	3	plataformes
31	3	igualtat	31	3	política
32	3	independència	32	3	presència
33	3	invertir	33	3	propostes
34	3	isabel	34	3	societat
35	3	nacional	35	3	sí
36	3	patriarcal	36	3	té
37	3	perfil	37	3	via
38	3	població	38	2	aconseguir
39	3	polític	39	2	activament
40	3	polítiques	40	2	afegir

Etiquetes

Seguidors

dimecres, 1 de juny del 2016

POST 16: ANÀLISI LEXICOMÈTRICA (1)

Cap comentari:

Publica un comentari a l'entrada

Visualitzacions de pàgina:

ISBN

Wikipedia

Dades personals