Acest proiect implementează un model de limbaj de mari dimensiuni (Large Language Model - LLM) folosind arhitectura Transformer în TensorFlow. Modelul este capabil să învețe din texte și să genereze text nou bazat pe ce a învățat.
- Clonează repository-ul
- Rulează scriptul de instalare dependențe:
./install_dependencies.sh- Sau instalează manual dependențele:
pip install -r requirements.txtpython llm_tensorflow.pyepochs: Numărul de iterații complete prin setul de dateseq_length: Lungimea secvențelor folosite pentru antrenamentbatch_size: Numărul de exemple procesate simultand_model: Dimensiunea reprezentărilor internenum_heads: Numărul de capete de atențienum_layers: Numărul de straturi transformerdff: Dimensiunea layer-ului feed-forwarddropout_rate: Rata de dropout pentru regularizare
max_length: Lungimea maximă a textului generattemperature: Factor de creativitate (valori mici = text mai predictibil, valori mari = text mai creativ)
llm_tensorflow.py # Implementarea principală a modelului
requirements.txt # Lista dependențelor Python
install_dependencies.sh # Script pentru instalarea automată
README.md # Documentația proiectului
- Convertește textul în secvențe de numere
- Tokenuri speciale:
<PAD>,<START>,<END>,<UNK> - Construiește automat vocabularul din textele de antrenament
- Implementează mecanismul de atenție cu capete multiple
- Permite modelului să proceseze relații complexe în text
- Fiecare cap poate învăța diferite tipuri de relații
- Arhitectura principală de tip Transformer
- Include:
- Straturi de codificare cu atenție multi-cap
- Straturi feed-forward
- Normalizare și conexiuni reziduale
- Mascare pentru antrenament autoregresiv
Acest proiect este destinat pentru învățare și experimentare. Pentru cazuri de utilizare în producție, se recomandă folosirea modelelor pre-antrenate precum GPT sau BERT.