Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA

Jordi M. Antolí Martínez

doi:10.14198/ITACA2011.2.11

Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA

Autors/ores

Jordi M. Antolí Martínez Universitat d’Alacant, Espanya https://orcid.org/0000-0003-2273-653X

DOI:

https://doi.org/10.14198/ITACA2011.2.11

Paraules clau:

Lematització, Categorització, Corpus informatitzat, Etiquetatge, Filologia, TIC, Català antic

Resum

Al si del projecte institucional de recerca IVITRA (Institut Virtual Internacional de Traducció) s'està desenvolupant el Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis mitjançant un seguit d'eines informàtiques (els programes Introcorpus®, Mettagging®, Ivitrarech ® i el Metaconcor®); a grans trets, aquesta tecnologia permet introduir, processar, emmagatzemar i recuperar de manera selectiva la informació d'un corpus textual. En concret, el processament dels textos que es fa comporta l'assignació de la categoria, el lema, l'idioma de cada un dels mots, primer de manera automàtica i després, mitjançant el programa Mettagging®, de manera detallada i individualitzada en aquells casos en què, bé la grafia, bé la categoria, bé el règim o bé qualsevol altre element morfosintàctic, lèxic o semàntic, fa necessari calibrar més específicament una determinada forma, construcció, locució, etc. Tot aquest procés i, en concret, la lematització, comporta una relació entre el treball filològic i les noves tecnologies que fa necessària una certa reflexió.

Descàrregues

Estadístiques

Estadístiques en RUA

Publicades

15-12-2011

Com citar

Antolí Martínez, J. M. (2011). Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA. Ítaca: Revista De Filologia, (2), 253–269. https://doi.org/10.14198/ITACA2011.2.11