TArC. Un corpus d’arabish tunisien / Gugliotta, Elisa; Dinarelli, Marco. - In: REVUE TAL. - ISSN 1965-0906. - 2:(2020), pp. 232-240. (Intervento presentato al convegno JEP - TALN - RECITAL 2020 - les 33ème Journées d’Études sur la Parole et la 27ème conférence sur le Traitement Automatique des Langues Naturelles tenutosi a Nancy, France).

TArC. Un corpus d’arabish tunisien

Elisa Gugliotta;
2020

2020
JEP - TALN - RECITAL 2020 - les 33ème Journées d’Études sur la Parole et la 27ème conférence sur le Traitement Automatique des Langues Naturelles
Cet article décrit la procédure de constitution du premier corpus d’arabish tunisien (TArC) annoté avec des informations morpho-syntaxiques. L’arabish est la transcription spontanée des dialectes arabes en caractères latins et arythmographies, c’est à dire avec des chiffres utilisées comme lettres. Ce système d’encodage a été développé par les utilisateurs arabes des réseaux sociaux afin de faciliter l’écriture dans les communications informelles. L’arabish diffère pour chaque dialecte arabe et il est sous-doté en termes de ressources, de la même façon que la plupart des dialectes arabes. Dans les dernières années, l’attention des travaux de recherche en TAL sur les dialectes arabes est augmentée de façon remarquable. En prenant ceci en compte, TArC serait un support utile pour plusieurs types d’analyses, computationnelles ainsi que linguistiques, et pour l’apprentissage d’outils informatiques. Nous décrivons le travail fait pour mettre en place une procédure d’acquisition semi-automatiquedu corpus TArC, ainsi que certaines analyses faites sur les données collectées. Afin de montrer les difficultés rencontrées pendant la procédure de constitution du corpus, nous présentons également les caractéristiques principales du dialecte tunisien, ainsi que sa transcription en arabish.
dialecte arabe; corpus d’arabish tunisien; Arabizi
04 Pubblicazione in atti di convegno::04c Atto di convegno in rivista
TArC. Un corpus d’arabish tunisien / Gugliotta, Elisa; Dinarelli, Marco. - In: REVUE TAL. - ISSN 1965-0906. - 2:(2020), pp. 232-240. (Intervento presentato al convegno JEP - TALN - RECITAL 2020 - les 33ème Journées d’Études sur la Parole et la 27ème conférence sur le Traitement Automatique des Langues Naturelles tenutosi a Nancy, France).
File allegati a questo prodotto
File Dimensione Formato  
Gugliotta_TArC_2020.pdf

accesso aperto

Note: https://hal.inria.fr/JEP-TALN-RECITAL2020/hal-02784772v3
Tipologia: Versione editoriale (versione pubblicata con il layout dell'editore)
Licenza: Creative commons
Dimensione 387.1 kB
Formato Unknown
387.1 kB Unknown

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11573/1604925
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact