Skip to content

DanielM24/Romanian-sub-dialect-identificator

Repository files navigation

Romanian-sub-dialect-identificator

Discriminate between the Moldavian and the Romanian dialects across different text genres.

Importarea librăriilor

Pentru realizarea proiectului am folosit urmatoarele librării:
      • pandas: pentru citirea fișierelor și încărcarea datelor
      • sklearn: pentru importarea modelului, modelarea datelor și determinarea matricei de confuzie și scorului f1

Citirea datelor

Citirea datelor s-a realizat prin intermediul funcției pd.read_csv cu următorii parametrii:
      • calea pentru fișierele txt cu datele de antrenare, validare și test
      • sep: separatorul folosit între date
      • header: fișierele nu conțin header
      • engine: python
Valorile citite sunt introduse într-un data frame ca mai apoi să fie convertit la un vector din NumPy prin intermediul funcției .to_numpy()

Definirea modelului

Am folosit modelul SVM din biblioteca ScikitLearn pentru a face diferența dintre cuvintele ce aparțin dialectului românesc sau dialectului moldovenesc.
Parametrul C a fost setat la valoarea 23 pentru că s-a observat că la valori mai mari s-a ajuns la supraînvățare.
      Parametrul kernel a fost setat la valoarea defaut (‘linear’)
      Parametrul gamma a fost setat la valoarea 110.
Pentru obținerea valorilor numerice din test_samples am folosit clasa TfidfVectorizer.

Normalizarea datelor

Funcția normalize_data(train_data, test_data, type='l2') primește ca parametri datele de antrenare, datele de testare și respectiv tipul de normalizare inițializat implicit cu valoarea l2 care intoarce datele normalizate.

Exportarea datelor

Pentru a genera predicția pentru datele de test și exportarea în format CSV am folosit DataFrame din pandas și .to_csv() cu parametrul index = false pentru a nu numerota rândurile din fișierul cu predicții.

About

Discriminate between the Moldavian and the Romanian dialects across different text genres.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages