La disponibilità di dati linguistici in formato digitale è cresciuta in modo esponenziale negli ultimi 20 anni, stimolando lo sviluppo di modelli per la loro annotazione e di tecniche per la loro analisi statistica, al fine di condurre ricerca linguistica quantitativa e qualitativa e potenziare applicazioni computazionali che prevedono fasi di machine learning a partire da dati. Ciò nonostante, la discussione fondamentale riguardo all’utilizzo di dati linguistici nella costruzione di risorse linguistiche, nella pratica lessicografica (tradizionale e computazionale, cfr. Hanks 2013) e in particolare nella elaborazione di teorie del linguaggio resta aperta e controversa (De Marneffe and Potts 2016), così come spesso sono insufficientemente esplicitati i limiti dell’uso di specifici corpora per la ricerca linguistica, in particolare quella lessicale. Il termine “risorse lessicali” comprende oggi una vastissima gamma di oggetti: tra questi, versioni online di dizionari cartacei (alcuni tra questi corpus-based o corpus-driven); dizionari elettronici direttamente creati per essere distribuiti esclusivamente online; dizionari collaborativi creati da utenti ordinari in progetti volontari; aggregatori di fonti lessicografiche (come dictionary.com e thefreedictionary.com); corpora annotati (di lingua scritta, parlata, mista, di dominio specifico, multilingui); lessici computazionali monolingui e multilingui, pensati come database lessicali o basi di conoscenze finalizzate non tanto alla consultazione da parte di utenti, ma all’uso e integrazione in applicazioni computazionali, banche dati terminologiche. Sono diffuse le iniziative di standardizzazione degli schemi di annotazione e dei metadati (dati di alto livello, categorie generali volte a favorire interoperabilità e riusabilità delle risorse), metodi innovativi per l'acquisizione di dati (crowdsourcing, gamification), e iniziative di valutazione e validazione di metodi e risorse.

Dati Empirici e Risorse lessicali: introduzione an numero monografico / Chiari, Isabella; Jezek, Elisabetta. - In: RICOGNIZIONI. - ISSN 2384-8987. - ELETTRONICO. - 6:(2016), pp. 9-13.

Dati Empirici e Risorse lessicali: introduzione an numero monografico

CHIARI, ISABELLA;
2016

Abstract

La disponibilità di dati linguistici in formato digitale è cresciuta in modo esponenziale negli ultimi 20 anni, stimolando lo sviluppo di modelli per la loro annotazione e di tecniche per la loro analisi statistica, al fine di condurre ricerca linguistica quantitativa e qualitativa e potenziare applicazioni computazionali che prevedono fasi di machine learning a partire da dati. Ciò nonostante, la discussione fondamentale riguardo all’utilizzo di dati linguistici nella costruzione di risorse linguistiche, nella pratica lessicografica (tradizionale e computazionale, cfr. Hanks 2013) e in particolare nella elaborazione di teorie del linguaggio resta aperta e controversa (De Marneffe and Potts 2016), così come spesso sono insufficientemente esplicitati i limiti dell’uso di specifici corpora per la ricerca linguistica, in particolare quella lessicale. Il termine “risorse lessicali” comprende oggi una vastissima gamma di oggetti: tra questi, versioni online di dizionari cartacei (alcuni tra questi corpus-based o corpus-driven); dizionari elettronici direttamente creati per essere distribuiti esclusivamente online; dizionari collaborativi creati da utenti ordinari in progetti volontari; aggregatori di fonti lessicografiche (come dictionary.com e thefreedictionary.com); corpora annotati (di lingua scritta, parlata, mista, di dominio specifico, multilingui); lessici computazionali monolingui e multilingui, pensati come database lessicali o basi di conoscenze finalizzate non tanto alla consultazione da parte di utenti, ma all’uso e integrazione in applicazioni computazionali, banche dati terminologiche. Sono diffuse le iniziative di standardizzazione degli schemi di annotazione e dei metadati (dati di alto livello, categorie generali volte a favorire interoperabilità e riusabilità delle risorse), metodi innovativi per l'acquisizione di dati (crowdsourcing, gamification), e iniziative di valutazione e validazione di metodi e risorse.
2016
lexicography, lexicology, computational linguistics
01 Pubblicazione su rivista::01a Articolo in rivista
Dati Empirici e Risorse lessicali: introduzione an numero monografico / Chiari, Isabella; Jezek, Elisabetta. - In: RICOGNIZIONI. - ISSN 2384-8987. - ELETTRONICO. - 6:(2016), pp. 9-13.
File allegati a questo prodotto
File Dimensione Formato  
Chiari_Dati-intro_2016.pdf

accesso aperto

Tipologia: Versione editoriale (versione pubblicata con il layout dell'editore)
Licenza: Creative commons
Dimensione 162.02 kB
Formato Adobe PDF
162.02 kB Adobe PDF

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11573/982820
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact