Repozytorium zawiera kompletny zestaw skryptów w Pythonie (1.py … 14.py) służących do analizy jakości wód (inflow/outflow) na podstawie danych środowiskowych.
Celem projektu jest:
- eksploracja i przygotowanie danych,
- testy statystyczne i korelacje,
- redukcja wymiarowości (PCA),
- grupowanie obserwacji (klasteryzacja KMeans),
- modelowanie jakości wody (Random Forest),
- interpretacja wyników za pomocą analiz ważności cech i wykresów zależności częściowych.
1.py– statystyki opisowe (średnie, min, max, odchylenia standardowe) dla inflow/outflow2.py– testy statystyczne (t-Student, Mann–Whitney U) dla zmiennych numerycznych3.py– wizualizacja wyników testów, boxploty i wykresy porównawcze4.py– identyfikacja silnych korelacji pomiędzy zmiennymi (|r| > 0.7)5.py– test liniowości zależności i funkcjatest_linearity6.py– macierze korelacji Spearmana (dla inflow i outflow) + heatmapy7.py– regresje nieliniowe (LOWESS) dla silnie skorelowanych par zmiennych8.py– PCA (redukcja do 2D i 3D) + standaryzacja danych9.py– analiza ładunków PCA (zmienne o największym wpływie na PC1 i PC2)10.py– klasteryzacja KMeans + wybór liczby klastrów metodą silhouette score11.py– preprocessing: wczytywanie danych z CSV, konwersja dat, przygotowanie PCA i klastrów12.py– model Random Forest do predykcji zmiennej DO (rozpuszczony tlen)13.py– poprawiony model RF (bez użycia DO jako predyktora), ewaluacja na zbiorze testowym14.py– końcowe modelowanie: Random Forest + interpretacja (Permutation Importance, PDP)
- Python 3.9+
- Zależności:
pandas,numpyscipy,statsmodelsmatplotlib,seabornscikit-learndateutil- (opcjonalnie)
ace_tools
Instalacja:
pip install -r requirements.txtKażdy etap można uruchamiać oddzielnie:
python 1.py
python 2.py
...
python 14.pyRekomendowana jest praca w środowisku Jupyter/Colab, gdzie wyniki są prezentowane jako wykresy i tabele.
Projekt dostarcza:
- statystyk opisowych dla danych inflow/outflow,
- wyników testów statystycznych i analiz korelacji,
- wizualizacji PCA i klasteryzacji KMeans,
- modelu predykcyjnego jakości wody (Random Forest),
- interpretacji istotności cech (Permutation Importance, PDP).
- Klaudia Levita
- Tymoteusz Miller (wsparcie merytoryczne)
MIT License – szczegóły w pliku LICENSE.