Analisi testuale, rumore semantico e peculiarità morfosintattiche: problemi e strategie di pretrattamento di corpora speciali

Nobile, Stefano

The multiplication of text analysis techniques has made possible the combined use of different software, directed from time to time to specific needs for analysis and research. However, the opportunities offered by the different software does not mitigate a fundamental problem, inherent in the characteristics of some peculiar corpora. Perfectly suited for analysis on texts written accurately and based on a supervised style, however these software can not reduce some problems. Among these, one of the most common concerns the morphosyntactic rules of the language with its semantic noise. Problems of "noise", such as that generated in spontaneous conversations, require many precautions for the preparation of the corpus. This situation is exaggerated with Twitter, whose ease of access and messaging download has produced analysis that is not always adequately supported from the theoretical point of view. Poems and songs present a similar problem. In these kind of corpora the problem derives from the structure of this kind of communication, which in using some rhetorical expedients accentuates the critical mass generated by some words. What strategies are possible to adequately prepare the corpora to be analysed in these two particular situations? The contribution proposes some strategies on how to operate in these particular conditions, highlighting the advantages on the empirical level but also the effects on the theoretical one.

La moltiplicazione delle tecniche di analisi testuale ha reso possibile l’uso combinato di software diversi, piegati di volta in volta a singole esigenze di analisi e ricerca. Tuttavia, l’ampiezza di opportunità offerte dai diversi software non attenua un problema di fondo, insito nelle caratteristiche stesse di alcuni corpora peculiari. Perfettamente adatti ad analisi su testi redatti accuratamente e improntati a uno stile sorvegliato, questi software non riescono tuttavia a togliere l’utente dall’impaccio nel quale può trovarsi in alcune circostanze. Tra queste, una delle più comuni riguarda le regole morfosintattiche della lingua di riferimento e quindi portatrice di quote elevate di rumore semantico. Problemi di “rumore”, come quello generato nelle conversazioni spontanee, richiedono al ricercatore una serie di accorgimenti per la preparazione del corpus che tengano conto della necessità di evitare di ottenere dati fortemente distorti. Questo discorso si esaspera con Twitter, la cui facilità d’accesso e download dei messaggi è da qualche tempo foriero di analisi non sempre adeguatamente sostenute dal punto di vista teorico. A questi casi si aggiunge quello di corpora altrettanto peculiari come quelli delle poesie e delle canzoni. In corpora di questo tipo il problema deriva dal costrutto stesso di questo genere comunicativo, che nel servirsi di alcuni espedienti retorici accentua la massa critica generata da alcune parole, andando così a incidere, tra l’altro, sul calcolo di alcuni parametri rilevanti e rendendo meno leggibili i risultati. Quali strategie sono dunque possibili al ricercatore per preparare adeguatamente i corpora da analizzare in queste due situazioni particolari? Il contributo che si intende presentare vuole avanzare alcune proposte su come operare in queste particolari condizioni, evidenziando i vantaggi sul piano empirico ma anche le ricadute su quello teorico soggiacente agli obiettivi stessi che analisi su corpora di questo genere possono porsi.

Analisi testuale, rumore semantico e peculiarità morfosintattiche: problemi e strategie di pretrattamento di corpora speciali / Nobile, Stefano. - STAMPA. - (2018), pp. 578-585.