"A galega é unha das tres linguas do mundo con
máis entropía nas interaccións en Twitter. Un estudo feito no Florida
Institute of Technology mostra as relacións e semellanzas estruturais
que mantén o galego co malaio, o hindú, o lituano, o serbio o ruso, o
urdú, o catalán ou o castelán na 'Rede de Idiomas de Twitter'.
As redes sociais en liña desempeñan un papel vital na difusión da
información no mundo de hoxe. Esa propagación da información está
habilitada pola existencia dunha conectividade subxacente dos usuarios.
Un factor que inflúe na conectividade en liña, que só recentemente
estivo recibindo atención, é a lingua utilizada polos usuarios das redes
nas súas actividades.
A comprensión da propagación da información desde
a perspectiva das linguas é de particular interese porque vivimos nun
mundo cun conxunto moi diverso de idiomas que interaccionan na Rede.
A
partir destas premisas, Priya Saha, experta en minaría de datos e
computación en Ciencias Sociais, desenvolveu un estudo utilizando os
enfoques da chamada Ciencia de Redes que demostra que os usuarios de Twitter teñen unha forte preferencia por conectarse con persoas que usan o seu propio idioma.
Pero o máis importante é que esta preferencia é máis forte que a
tendencia para conectarse con persoas cun nivel de popularidade similar
(é dicir, a noción tradicional de homofilia).
No seu estudo, Priya Saha analizou as conexións entre as 57 principais linguas de todo o mundo utilizadas en Twitter, incluído o galego. E atopou datos moi curiosos, mesmo sorprendentes.
En primeiro lugar, comprobou que os patróns de conexión entre usuarios
de diferentes linguas varían considerablemente e tales patróns arroxan
luz sobre sobre a similitude entre idiomas desde o punto de vista da
preferencia do usuario.
Ademais, o seu estudo desvela o que a autora
chama "Rede de Idiomas de Twitter", un sistema
conectado de moitas linguas diferentes sobre o que analizou varias
características interesantes, tamén para o caso do galego.
Nesta liña de investigación, Saha examinou os patróns de conectividade das linguas mediante o cálculo da entropía,
partindo de que "poderiamos ter unha lingua que se conecta de maneira
uniforme a outros idiomas ou poderiamos ter unha lingua que se conecte
fortemente a un só idioma".
Aínda que en ambos os casos as linguas
considéranse diversas, a autora explica que "a diversidade da primeira
lingua é máis alta que a segunda, ou a asociación da primeira lingua a
outras linguas é moito máis desordenada que a segunda".
Antes de proseguir, é necesario explicar que a entropía é unha medida
do desorde dun sistema. Unha das leis básicas da Física, o Segundo
Principio da Termodinámica, dinos que en todo sistema illado a entropía
crece sempre.
Así, os sistemas illados fanse cada vez máis desordenados,
a información necesaria para describilos diminúe continuamente, ata que
chegan ao seu máximo de entropía. Para que un sistema poida aumentar a
súa complexidade debe deixar de estar illado, é dicir, é preciso que
teña unha achega externa de enerxía.
Un dos aspectos máis importantes que proba este estudo é que o malaio, o
ruso e o galego —nesta orde— son os tres idiomas con maior grao de
entropía, ou de desorde, nas redes de rechíos que se crean en Twitter.
En concreto, Saha expón nos resultados da súa investigación: "Na rede de
retweets [...] observamos que o malaio, o ruso e o galego teñen unha entropía moi alta, o que significa que os seus patróns de conexión están desordenados". Noutras palabras: estas tres linguas son as que mostran máis conexións aleatorias con outros idiomas.
O que fixo a investigadora foi medir a diversidade de cada lingua
calculando a relación entre as conexións entre si e a suma das súas
conexións a outros idiomas, tanto na rede de seguidores que se estable
en Twitter como na rede de rechíos.
Así, sobre a primeira, a chamada Follower Language Network,
observou que algunhas linguas son máis uniformes (teñen menos conexións
a outros idiomas), ou dito doutro xeito, son menos diversas. "Idiomas
como o inglés, o español ou o ruso adoitan mostrar unha forte
preferencia por conectarse dentro de si mesmos en contraste co
xeorxiano, o urdú ou o serbio, que se conectan principalmente a outros
idiomas", aporta a autora.
Porén, na rede de rechíos —a chamada Retweet Language Network—
atopou que "a preferencia é aínda máis acentuada". Así, por exemplo, "o
turco, o italiano e o inglés conéctanse entre si en comparación con
idiomas como o lituano, o serbio ou o estoniano". É nesta rede de
interaccións onde atopou que o galego é unha das tres linguas con maior
entropía.
Outros idiomas como o grego e o francés mostran tamén unha entropía
alta, o que indica que a súa asociación con outras linguas é moi
desordenada. "Segundo o vector da exposición do idioma francés, este
asóciase consigo mesmo e o inglés case uniformemente; o grego exhibe
conexións con varios idiomas como inglés, español, portugués, alemán, e
outros", describe.
Idiomas con entropía baixa na rede de rechíos son o hindú, o turco e o
italiano, que "están menos desordenados na rede". Priya Saha explica que
a baixa entropía dunha lingua pode ter dúas explicacións: "En primeiro
lugar, idiomas como o turco e o italiano mostran unha moi alta
preferencia a rechouchiarse entre si. En segundo lugar, os idiomas como o
hindú asócianse fortemente co inglés, aínda que o hindú non mostra unha
preferencia por conectarse consigo mesmo".
É dicir, os resultados mostran que o retweeting e os patróns de seguimento das linguas varían.
SEMELLANZAS ENTRE GALEGO, HINDÚ, LITUANO E URDÚ
Priya Saha mediu as semellanzas entre as linguas baseándose na
existencia de conexións entre estas. Pescudando se os idiomas dos
usuarios poden agruparse en función de como os falantes se conectan
entre si en Twitter, a investigadora identificou as linguas que tenden a
interactuar máis entre si.
Para agrupar as linguas, primeiro examinou os patróns das conexións dos
idiomas, creando unha árbore a partir das conexións entre usuarios
baseada nos seus idiomas. Esta árbore agrupa catro sub-árbores que
mostran os idiomas que pertencen a cada grupo.
Para medir a semellanza entre linguas, calculouse o índice de similitude de Jaccard de cada par de linguas. O índice de Jaccard é unha métrica que se utiliza para calcular o grao de similitude entre dous conxuntos.
A investigadora comprobou que o hindú, o galego, o lituano e o urdú
"teñen coeficientes de Jaccard moi altos". Estas tres linguas "son
similares desde o punto de vista dos seus veciños comúns". É dicir: "Son
estruturalmente similares porque todos eles se conectan a idiomas
importantes como o inglés, o español e o alemán nun só paso. Así que se o
galego ten unha peza de información, o lituano é probable que teña esa
información tamén", argúe a autora do estudo en base aos datos obtidos.
ALTA CORRELACIÓN CO SERBIO, LITUANO, VASCO E CATALÁN
Outra proba foi medir a similitude entre pares de linguas baseada na calidade das conexións.
Os estudos veñen demostrando que as interaccións entre as persoas
dentro dun grupo tenden a ser maiores que as interaccións entre as
persoas de distintos grupos en Twitter. Tal observación se conceptualiza
como "distancia social interactiva".
O obxectivo neste
caso foi medir esa distancia desde a perspectiva das linguas. Para
isto, as interaccións entre idiomas son tomadas como a "forza" das
linguas: "Unha maior forza entre dúas linguas pode ser debido ao
vocabulario similar deses idiomas, o que pode resultar na comprensión de
ambas as linguas sen moito esforzo, ou pode ser debido a que as linguas
teñen unha familia de orixe similar", esclarece Priya Saha, quen
identifica esa "forza" coa calidade das conexións entre os distintos
idiomas.
"Canto maior sexa o número de falantes comúns entre dúas linguas, maior
é a probabilidade de que a información flúa dun idioma a outro. Dúas linguas fortemente conectadas poden difundir información entre si máis rapidamente que dúas linguas debilmente conectadas",
advirte a investigadora, quen engade: "Dúas linguas considéranse
similares se teñen alta correlación porque os falantes das dúas linguas
interactúan de maneira similar con outros idiomas. Unha menor
correlación entre dúas linguas indica menor similitude".
No estudo comprobouse que o inglés dá unha "alta correlación negativa
coa maioría das linguas". Isto prodúcese porque "o inglés é un idioma
moi influente; conéctase á maioría das linguas da rede e, por tanto, a
súa similitude con outros idiomas é débil, dado que ningún outro ten un
patrón de conectividade similar".
Tamén se constatou que "o lituano, o serbio, o vasco, o catalán e o
galego forman un grupo distinto", xa que "os seus usuarios teñen un
patrón similar de interaccións con outros idiomas". De feito, "agás o
eúscaro, todas as demais linguas deste grupo forman parte da familia
indoeuropea (aínda que as subfamilias son diferentes), e dous deles son
falados xeralmente por castelánfalantes", explica Priya Saha.
Outro caso curioso é, por exemplo, o do grupo que forman o alemán
suízo, o holandés, o hindú e o urdú, que "mostran alta correlación entre
si". Para este caso, a autora clarifica que "o hindú e o urdú proceden
da mesma subfamilia sánscrito; tanto o holandés como o suízo alemán son
orixinarios da subfamilia xermánica; tanto o xermánico como o sánscrito
están na mesmo árbore xenealóxica, que pode utilizarse para explicalos
agrupados".
Idiomas latinos como o portugués e o italiano tamén mostran patróns de interacción similares nos datos.
As cousas mudan na matriz de correlación da rede de retweets,
onde "as linguas latinas como o catalán, o español, o galego e o
portugués forman un grupo, xunto co vasco". É dicir, o seu patrón de
rechíos é moi similar. Tamén aquí mostran alta correlación entre si
linguas como o búlgaro, o croata e o alemán, por exemplo.
En definitiva, o estudo mostra que o patrón de asociación das linguas
en Twitter varía. Así, hai linguas que mostran unha asociación máis
forte con elas mesmas ou que gozan de tal popularidade mundial que os
seu usuarios non necesitan entender outro idioma para recibir ou
espallar información.
Porén, outros usuarios de idiomas mostran menos
asociación entre eles e necesitan entender outra lingua para recibir
información na rede. Debido á variación nos patróns de conexión, algúns
idiomas están máis ou menos desordenados ca outros en Twitter.
Priya Saha vén de presentar os resultados do seu estudo na súa tese de doutoramento 'Language Relations on Twitter: A Network Science Approach', defendida o pasado mes de abril no Florida Institute of Technology (Estados Unidos)." (Alberto Quian , Galicia Confidencial, 13/06/17)
No hay comentarios:
Publicar un comentario