1. Giriş
Veri bilimi, günümüzde en hızlı büyüyen alanlardan biri olup büyük miktarda veriyi işleyerek anlamlı bilgiler elde etmeyi amaçlar. Finans, sağlık, pazarlama, mühendislik gibi pek çok sektörde karar alma süreçlerini optimize etmek için kullanılır. Python, sunduğu geniş kütüphane ekosistemi ile veri biliminde en çok tercih edilen dillerden biridir.
Bu makalede, Python ile veri analizi yapmayı adım adım inceleyeceğiz. Gerçek dünya verilerini kullanarak veri temizleme, analiz ve görselleştirme süreçlerini detaylandıracağız.
2. Veri Bilimi İçin Gerekli Python Kütüphaneleri
Python ile veri bilimi çalışmaları yapmak için aşağıdaki popüler kütüphaneleri kullanırız:
- NumPy: Sayısal hesaplamalar ve büyük veri kümeleri ile çalışmak için.
- Pandas: Veri manipülasyonu ve analiz için güçlü araçlar sunar.
- Matplotlib & Seaborn: Verileri görselleştirmek için.
- Scikit-learn: Makine öğrenmesi ve istatistiksel modelleme için.
Kurulumu yapmak için aşağıdaki komutu terminal veya komut satırında çalıştırabilirsiniz:
pip install numpy pandas matplotlib seaborn scikit-learn
3. Veri Analiz Süreci
3.1. Veri Toplama ve Yükleme
Gerçek dünya projelerinde veriler genellikle CSV, Excel veya SQL veritabanlarından alınır. Pandas ile bir CSV dosyasını yükleyelim:
import pandas as pd # Veri kümesini yükleme veri = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv") # İlk birkaç satırı görüntüleme print(veri.head())
3.2. Veri Temizleme ve Ön İşleme
Veriler genellikle eksik veya hatalı olabilir. Bu yüzden ön işleme yapmak kritik bir adımdır.
# Eksik verileri kontrol etme print(veri.isnull().sum()) # Eksik değerleri doldurma (ortalama ile) veri["age"].fillna(veri["age"].mean(), inplace=True) # Kategorik verileri sayısala dönüştürme veri["sex"] = veri["sex"].map({"male": 0, "female": 1})
3.3. Veri Görselleştirme
Veriyi daha iyi anlamak için çeşitli görselleştirmeler yapalım.
import matplotlib.pyplot as plt import seaborn as sns # Yaşa göre hayatta kalma oranı plt.figure(figsize=(8,6)) sns.histplot(data=veri, x="age", hue="survived", multiple="stack", bins=30) plt.title("Yaş Dağılımı ve Hayatta Kalma Oranı") plt.show() # Korelasyon matrisi plt.figure(figsize=(8,6)) sns.heatmap(veri.corr(), annot=True, cmap="coolwarm") plt.title("Korelasyon Matrisi") plt.show()
4. Gerçek Dünya Analiz Örneği
Örnek olarak, Titanic veri kümesi üzerinde bazı istatistiksel analizler yapalım.
# Kadınların hayatta kalma oranı kadin_hayatta_kalma = veri[veri["sex"] == 1]["survived"].mean() print(f"Kadınların hayatta kalma oranı: {kadin_hayatta_kalma:.2f}") # Erkeklerin hayatta kalma oranı erkek_hayatta_kalma = veri[veri["sex"] == 0]["survived"].mean() print(f"Erkeklerin hayatta kalma oranı: {erkek_hayatta_kalma:.2f}")
Bu analizler, Titanic kazasında kadınların hayatta kalma olasılığının erkeklere göre çok daha yüksek olduğunu gösterecektir.
5. Sonuç ve İleri Seviye Konular
Bu makalede, Python kullanarak temel veri analizi adımlarını inceledik. Daha ileri düzeye geçmek için aşağıdaki konulara göz atabilirsiniz:
- Makine Öğrenmesi ile Tahminleme Modelleri (Scikit-learn kullanarak)
- Büyük Veri Analizi ve Apache Spark
- Derin Öğrenme ile Görüntü ve Metin Analizi
Veri bilimi öğrenmeye devam etmek için Kaggle ve Google Colab gibi platformları kullanabilirsiniz. 🚀