La disponibilità di dati linguistici in formato digitale è cresciuta in modo esponenziale negli ultimi 20 anni, stimolando lo sviluppo di modelli per la loro annotazione e di tecniche per la loro analisi statistica, al fine di condurre ricerca linguistica quantitativa e qualitativa e potenziare applicazioni computazionali che prevedono fasi di machine learning a partire da dati. Ciò nonostante, la discussione fondamentale riguardo all’utilizzo di dati linguistici nella costruzione di risorse linguistiche, nella pratica lessicografica (tradizionale e computazionale, cfr. Hanks 2013) e in particolare nella elaborazione di teorie del linguaggio resta aperta e controversa (De Marneffe and Potts 2016), così come spesso sono insufficientemente esplicitati i limiti dell’uso di specifici corpora per la ricerca linguistica, in particolare quella lessicale. Il termine “risorse lessicali” comprende oggi una vastissima gamma di oggetti: tra questi, versioni online di dizionari cartacei (alcuni tra questi corpus-based o corpus-driven); dizionari elettronici direttamente creati per essere distribuiti esclusivamente online; dizionari collaborativi creati da utenti ordinari in progetti volontari; aggregatori di fonti lessicografiche (come dictionary.com e thefreedictionary.com); corpora annotati (di lingua scritta, parlata, mista, di dominio specifico, multilingui); lessici computazionali monolingui e multilingui, pensati come database lessicali o basi di conoscenze finalizzate non tanto alla consultazione da parte di utenti, ma all’uso e integrazione in applicazioni computazionali, banche dati terminologiche. Sono diffuse le iniziative di standardizzazione degli schemi di annotazione e dei metadati (dati di alto livello, categorie generali volte a favorire interoperabilità e riusabilità delle risorse), metodi innovativi per l'acquisizione di dati (crowdsourcing, gamification), e iniziative di valutazione e validazione di metodi e risorse.
Dati Empirici e Risorse lessicali: introduzione an numero monografico / Chiari, Isabella; Jezek, Elisabetta. - In: RICOGNIZIONI. - ISSN 2384-8987. - ELETTRONICO. - 6:(2016), pp. 9-13.
Dati Empirici e Risorse lessicali: introduzione an numero monografico
CHIARI, ISABELLA;
2016
Abstract
La disponibilità di dati linguistici in formato digitale è cresciuta in modo esponenziale negli ultimi 20 anni, stimolando lo sviluppo di modelli per la loro annotazione e di tecniche per la loro analisi statistica, al fine di condurre ricerca linguistica quantitativa e qualitativa e potenziare applicazioni computazionali che prevedono fasi di machine learning a partire da dati. Ciò nonostante, la discussione fondamentale riguardo all’utilizzo di dati linguistici nella costruzione di risorse linguistiche, nella pratica lessicografica (tradizionale e computazionale, cfr. Hanks 2013) e in particolare nella elaborazione di teorie del linguaggio resta aperta e controversa (De Marneffe and Potts 2016), così come spesso sono insufficientemente esplicitati i limiti dell’uso di specifici corpora per la ricerca linguistica, in particolare quella lessicale. Il termine “risorse lessicali” comprende oggi una vastissima gamma di oggetti: tra questi, versioni online di dizionari cartacei (alcuni tra questi corpus-based o corpus-driven); dizionari elettronici direttamente creati per essere distribuiti esclusivamente online; dizionari collaborativi creati da utenti ordinari in progetti volontari; aggregatori di fonti lessicografiche (come dictionary.com e thefreedictionary.com); corpora annotati (di lingua scritta, parlata, mista, di dominio specifico, multilingui); lessici computazionali monolingui e multilingui, pensati come database lessicali o basi di conoscenze finalizzate non tanto alla consultazione da parte di utenti, ma all’uso e integrazione in applicazioni computazionali, banche dati terminologiche. Sono diffuse le iniziative di standardizzazione degli schemi di annotazione e dei metadati (dati di alto livello, categorie generali volte a favorire interoperabilità e riusabilità delle risorse), metodi innovativi per l'acquisizione di dati (crowdsourcing, gamification), e iniziative di valutazione e validazione di metodi e risorse.| File | Dimensione | Formato | |
|---|---|---|---|
|
Chiari_Dati-intro_2016.pdf
accesso aperto
Tipologia:
Versione editoriale (versione pubblicata con il layout dell'editore)
Licenza:
Creative commons
Dimensione
162.02 kB
Formato
Adobe PDF
|
162.02 kB | Adobe PDF |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


