Aller au contenu

Traitemint automatique d'ches langues

Cha vient éd Wikipedia

I feut doter ches langues éd mouéyins informatikes (corpus, lexikes, diction·noères) et d'otils d' traitemint pour foaire ène éyude pour el diffusion, el protection et pi l' inseignemint des langues.

Ch' traitemint du langache naturel (PNL) o traitemint automatique d'ches langues (TAL) ch'est un dsous-donmaine éd l’informatike, éd l’intelligince artifichielle, éd l’ingénierie d' l’informacion et pi éd l’interaccion honme-machine.


L' tokenisacion d'ches teskes

[éditer | modifier ech wikicode]

El tokenisacion ch'est ch' processus éd créachon éd ch'tons o éd division d’eune tchaîn•ne, d’un teske dins eune lisse éd ch'tons.

Ches ch'tons sont conme des parties o des bouts d' teske.

Un mot ch'est un ch'ton dins eune frase et pi eune frase ch'est un ch'ton dins un paragrafe.

exampe éd teske :     "Atincion, ches mots s'écrivette conme o in picard."
ch'tons =     [ 'Atincion' ,   ' , '  ,   'ches' ,   'mots' ,   ' s'  ' ,   'écrivette' ,   'conme' ,   'o' ,   'in' ,   'picard' ,   '. ' ]

El lemmatisacion

[éditer | modifier ech wikicode]

El « lemmatisacion » ch'est arprésinter ches mots (o « lemmes ») édsous leu forme canonike. L' forme canonike est l' forme l' pus simpe d'un mot pour l' erpérer dins un dictionnoère.

Pèr exampe pour un verbe, cha s'ra sin infinitif. Pour un nom, cha s'ra sin masculin singulier.

El normalisacion et pi el construccion du dictionnoère permet d' n' pon prinde in compte des détails importants à ch' niviau local (ponctuacion, majuscules, conjugaison, ...)

exemple : "Dins ches pièches, il y o des cinsiers picards aveuc leus fanmes"

O vut éstraire ches lemmes suivants : « pièche, avoèr, cinsier, picard, fanme ».

El racinisacion

[éditer | modifier ech wikicode]

L' racinisation (stemming in inglés) ch'est pour n' conserver uniquemint l' rachine des mots. Oz abolit ches suffixes, préfixes et d'eutes coses des mots.

Lemmatiser n’est pon simpe. I feut foaire quate opéracions distinctes [1] :

1) couésir el forme granmaticale ;
2) effacemint chés variacions fonétikes ;
3) adopcion d’eune grafie éd lemme (L) ;
4) couésir un supralemme (SL).

Plusieurs étapes sont donc nécessaires pour tokéniser ches teskes picards, notammint dins ches quate aspects :

  • ch' tiret,
  • ch' point,
  • l’apostrofe et
  • l’espache.

quèques exampes :

ches multipes variantes fonétikes dialectales.

[éditer | modifier ech wikicode]
flexions verbales

• avoait, avoet, avait, avé, avot, awét, awè’t’, ...

variacion grafike aveuc apostrofes, tirets, points pouvant ète dins ch' mot
  • une, eune, un’, un’n, unhn’, eun’, in-n, inne, un·ne, un·n’, ...
  • I se proumon•ne
ches consonnes éd liaison
  • z, t, n, ...
Apreu qu'i zz'euche autorisès à rouvrir, i zz'o rfreumès.
Quand is n’mariye-té (fr: quand elles se marient)
variacions diatopiques
  • jamouais, janmoés, janmais, jin.mais, jamois, jamwé, jamé, jama, jamais, ...

Projet Picartext

[éditer | modifier ech wikicode]

Projet RESTAURE

[éditer | modifier ech wikicode]

Ch' projet RESTAURE i vut produire des mouéyins informatikes et des otils d' traitemint automatique pour troés langues régionales : alsacien, occitan et picard.

  • Le projet RESTAURE : https://hal.archives-ouvertes.fr/hal-01297835/document
    • Delphine Bernhard, Marianne Vergez-Couret, Le projet RESTAURE, Colloque sur les technologies pour les langues régionales de France (TLRF 2015), Délégation générale à la langue française et aux langues de France, laboratoire de recherche en informatique pluridisciplinaire (LIMSI) - Centre national de la recherche scientifique (CNRS), Institut des technologies multilingues et multimédias de l’information (IMMI), Feb 2015, Meudon, France. pp.96-100.

Atlas pan-picard informatisé

[éditer | modifier ech wikicode]

Ch' projet Atlas pan-picard informatisé a débutè in janvier 2018 pour troés ans à l’Univarsité Lille. Il est foait pour préparer l' future intégration d'ches atlas linguistikes et éthnografikes d' France dins ch' projet intarnational éd digitalisation et d' mise in réseau d'ches érsources lexicografikes.

  1. CARTON, Fernand ; BRUN-TRIGAUD, Guylaine. Lemmes, supralemmes : dilemmes. : Problèmes d’indexation de l’Atlas linguistique picard et de l’Atlas linguistique du Centre In : Sempre los camps auràn segadas resurgantas : Mélanges offerts au professeur Xavier Ravier [en ligne]. Toulouse : Presses universitaires du Midi, 2003 (généré le 16 janvier 2022). Disponible sur Internet : <http://books.openedition.org/pumi/42578>. ISBN : 9782810710690. DOI : https://doi.org/10.4000/books.pumi.42578.