Python’da Veri Bilimi ve Analiz

1. Giriş

Veri bilimi, günümüzde en hızlı büyüyen alanlardan biri olup büyük miktarda veriyi işleyerek anlamlı bilgiler elde etmeyi amaçlar. Finans, sağlık, pazarlama, mühendislik gibi pek çok sektörde karar alma süreçlerini optimize etmek için kullanılır. Python, sunduğu geniş kütüphane ekosistemi ile veri biliminde en çok tercih edilen dillerden biridir.

Bu makalede, Python ile veri analizi yapmayı adım adım inceleyeceğiz. Gerçek dünya verilerini kullanarak veri temizleme, analiz ve görselleştirme süreçlerini detaylandıracağız.

2. Veri Bilimi İçin Gerekli Python Kütüphaneleri

Python ile veri bilimi çalışmaları yapmak için aşağıdaki popüler kütüphaneleri kullanırız:

NumPy: Sayısal hesaplamalar ve büyük veri kümeleri ile çalışmak için.
Pandas: Veri manipülasyonu ve analiz için güçlü araçlar sunar.
Matplotlib & Seaborn: Verileri görselleştirmek için.
Scikit-learn: Makine öğrenmesi ve istatistiksel modelleme için.

Kurulumu yapmak için aşağıdaki komutu terminal veya komut satırında çalıştırabilirsiniz:

pip install numpy pandas matplotlib seaborn scikit-learn

3. Veri Analiz Süreci

3.1. Veri Toplama ve Yükleme

Gerçek dünya projelerinde veriler genellikle CSV, Excel veya SQL veritabanlarından alınır. Pandas ile bir CSV dosyasını yükleyelim:

import pandas as pd

# Veri kümesini yükleme
veri = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

# İlk birkaç satırı görüntüleme
print(veri.head())

3.2. Veri Temizleme ve Ön İşleme

Veriler genellikle eksik veya hatalı olabilir. Bu yüzden ön işleme yapmak kritik bir adımdır.

# Eksik verileri kontrol etme
print(veri.isnull().sum())

# Eksik değerleri doldurma (ortalama ile)
veri["age"].fillna(veri["age"].mean(), inplace=True)

# Kategorik verileri sayısala dönüştürme
veri["sex"] = veri["sex"].map({"male": 0, "female": 1})

3.3. Veri Görselleştirme

Veriyi daha iyi anlamak için çeşitli görselleştirmeler yapalım.

import matplotlib.pyplot as plt
import seaborn as sns

# Yaşa göre hayatta kalma oranı
plt.figure(figsize=(8,6))
sns.histplot(data=veri, x="age", hue="survived", multiple="stack", bins=30)
plt.title("Yaş Dağılımı ve Hayatta Kalma Oranı")
plt.show()

# Korelasyon matrisi
plt.figure(figsize=(8,6))
sns.heatmap(veri.corr(), annot=True, cmap="coolwarm")
plt.title("Korelasyon Matrisi")
plt.show()

4. Gerçek Dünya Analiz Örneği

Örnek olarak, Titanic veri kümesi üzerinde bazı istatistiksel analizler yapalım.

# Kadınların hayatta kalma oranı
kadin_hayatta_kalma = veri[veri["sex"] == 1]["survived"].mean()
print(f"Kadınların hayatta kalma oranı: {kadin_hayatta_kalma:.2f}")

# Erkeklerin hayatta kalma oranı
erkek_hayatta_kalma = veri[veri["sex"] == 0]["survived"].mean()
print(f"Erkeklerin hayatta kalma oranı: {erkek_hayatta_kalma:.2f}")

Bu analizler, Titanic kazasında kadınların hayatta kalma olasılığının erkeklere göre çok daha yüksek olduğunu gösterecektir.

5. Sonuç ve İleri Seviye Konular

Bu makalede, Python kullanarak temel veri analizi adımlarını inceledik. Daha ileri düzeye geçmek için aşağıdaki konulara göz atabilirsiniz:

Makine Öğrenmesi ile Tahminleme Modelleri (Scikit-learn kullanarak)
Büyük Veri Analizi ve Apache Spark
Derin Öğrenme ile Görüntü ve Metin Analizi

Veri bilimi öğrenmeye devam etmek için Kaggle ve Google Colab gibi platformları kullanabilirsiniz. 🚀