GitHub - DanielM24/Romanian-sub-dialect-identificator: Discriminate between the Moldavian and the Romanian dialects across different text genres.

Romanian-sub-dialect-identificator

Discriminate between the Moldavian and the Romanian dialects across different text genres.

Importarea librăriilor

Pentru realizarea proiectului am folosit urmatoarele librării:
• pandas: pentru citirea fișierelor și încărcarea datelor
• sklearn: pentru importarea modelului, modelarea datelor și determinarea matricei de confuzie și scorului f1

Citirea datelor

Citirea datelor s-a realizat prin intermediul funcției pd.read_csv cu următorii parametrii:
      • calea pentru fișierele txt cu datele de antrenare, validare și test
      • sep: separatorul folosit între date
      • header: fișierele nu conțin header
      • engine: python
Valorile citite sunt introduse într-un data frame ca mai apoi să fie convertit la un vector din NumPy prin intermediul funcției .to_numpy()

Definirea modelului

Am folosit modelul SVM din biblioteca ScikitLearn pentru a face diferența dintre cuvintele ce aparțin dialectului românesc sau dialectului moldovenesc.
Parametrul C a fost setat la valoarea 23 pentru că s-a observat că la valori mai mari s-a ajuns la supraînvățare.
Parametrul kernel a fost setat la valoarea defaut (‘linear’)
Parametrul gamma a fost setat la valoarea 110.
Pentru obținerea valorilor numerice din test_samples am folosit clasa TfidfVectorizer.

Normalizarea datelor

Funcția normalize_data(train_data, test_data, type='l2') primește ca parametri datele de antrenare, datele de testare și respectiv tipul de normalizare inițializat implicit cu valoarea l2 care intoarce datele normalizate.

Exportarea datelor

Pentru a genera predicția pentru datele de test și exportarea în format CSV am folosit DataFrame din pandas și .to_csv() cu parametrul index = false pentru a nu numerota rândurile din fișierul cu predicții.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
LICENSE		LICENSE
README.md		README.md
main.py		main.py
sample_submission.txt		sample_submission.txt
test_samples.txt		test_samples.txt
train_labels.txt		train_labels.txt
train_samples.txt		train_samples.txt
validation_labels.txt		validation_labels.txt
validation_samples.txt		validation_samples.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Romanian-sub-dialect-identificator

Importarea librăriilor

Citirea datelor

Definirea modelului

Normalizarea datelor

Exportarea datelor

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Romanian-sub-dialect-identificator

Importarea librăriilor

Citirea datelor

Definirea modelului

Normalizarea datelor

Exportarea datelor

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages