Skip to content

Lewwita/Magisterka

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Analiza danych hydrochemicznych jezior

📌 Opis

Repozytorium zawiera kompletny zestaw skryptów w Pythonie (1.py14.py) służących do analizy jakości wód (inflow/outflow) na podstawie danych środowiskowych.
Celem projektu jest:

  • eksploracja i przygotowanie danych,
  • testy statystyczne i korelacje,
  • redukcja wymiarowości (PCA),
  • grupowanie obserwacji (klasteryzacja KMeans),
  • modelowanie jakości wody (Random Forest),
  • interpretacja wyników za pomocą analiz ważności cech i wykresów zależności częściowych.

📂 Struktura plików

  • 1.py – statystyki opisowe (średnie, min, max, odchylenia standardowe) dla inflow/outflow
  • 2.py – testy statystyczne (t-Student, Mann–Whitney U) dla zmiennych numerycznych
  • 3.py – wizualizacja wyników testów, boxploty i wykresy porównawcze
  • 4.py – identyfikacja silnych korelacji pomiędzy zmiennymi (|r| > 0.7)
  • 5.py – test liniowości zależności i funkcja test_linearity
  • 6.py – macierze korelacji Spearmana (dla inflow i outflow) + heatmapy
  • 7.py – regresje nieliniowe (LOWESS) dla silnie skorelowanych par zmiennych
  • 8.py – PCA (redukcja do 2D i 3D) + standaryzacja danych
  • 9.py – analiza ładunków PCA (zmienne o największym wpływie na PC1 i PC2)
  • 10.py – klasteryzacja KMeans + wybór liczby klastrów metodą silhouette score
  • 11.py – preprocessing: wczytywanie danych z CSV, konwersja dat, przygotowanie PCA i klastrów
  • 12.py – model Random Forest do predykcji zmiennej DO (rozpuszczony tlen)
  • 13.py – poprawiony model RF (bez użycia DO jako predyktora), ewaluacja na zbiorze testowym
  • 14.py – końcowe modelowanie: Random Forest + interpretacja (Permutation Importance, PDP)

⚙️ Wymagania

  • Python 3.9+
  • Zależności:
    • pandas, numpy
    • scipy, statsmodels
    • matplotlib, seaborn
    • scikit-learn
    • dateutil
    • (opcjonalnie) ace_tools

Instalacja:

pip install -r requirements.txt

▶️ Uruchamianie

Każdy etap można uruchamiać oddzielnie:

python 1.py
python 2.py
...
python 14.py

Rekomendowana jest praca w środowisku Jupyter/Colab, gdzie wyniki są prezentowane jako wykresy i tabele.

Wyniki

Projekt dostarcza:

  • statystyk opisowych dla danych inflow/outflow,
  • wyników testów statystycznych i analiz korelacji,
  • wizualizacji PCA i klasteryzacji KMeans,
  • modelu predykcyjnego jakości wody (Random Forest),
  • interpretacji istotności cech (Permutation Importance, PDP).

👩‍💻 Autorzy

  1. Klaudia Levita
  2. Tymoteusz Miller (wsparcie merytoryczne)

📄 Licencja

MIT License – szczegóły w pliku LICENSE.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages