Data Science Mülakat Soruları

Data Science ya da diğer bir deyişle veri bilimi, anlamlı öngörüler yakalamak amacıyla veriler üzerinde gerçekleştirilen çalışmaların adıdır. Büyük miktardaki verileri analiz etmek için matematik, istatistik, yapay zeka ve bilgisayar mühendisliği alanlarının uygulamalarını bir araya getiren, disiplinler arası bir yaklaşımdır. Bu analiz, veri bilimcilerin ve mühendislerin sonuçlarla neler yapılabileceğini sormalarına ve bu soruları cevaplamalarına yardımcı olur.

Veri bilimi alanı her geçen gün daha da büyüyor. Bu nedenle, veri bilimci kariyeri peşinde koşmak isteyenlerin sayısı da artıyor. Çoğu zaman, iş bulan adaylar en güçlü teknik becerilere sahip olanlar değil, bunu mülakat bilgisiyle birleştirebilen adaylar oluyor.

Veri bilimi çok geniş bir alan olsa da, mülakatlarda sıkça sorulan Data Science (Veri Bilimi) mülakat sorularının bir listesini cevaplarıyla birlikte derledik. 📊💼

1. Lineer Regresyon için gerekli varsayımlar nelerdir?

Lineer (Doğrusal) bir regresyonun dört varsayımı vardır:

Doğrusallık: Bağımsız değişken x ile bağımlı değişken y arasındaki ilişkinin doğrusal olması gerekir.
Bağımsızlık: Gözlemler arasında korelasyon yoktur. Bir gözlem diğerini etkilememelidir. Çoğunlukla zaman serisi verilerinde oluşur.
Eş varyans (Homoscedasticity): x'in her seviyesinde varyans sabit olmalıdır.
Normallik: Hataların normal bir dağılıma sahip olması gerekir.

2. Eksik veri nedir?

Eksik veri, verilen veri kümesindeki bazı değişkenler için depolanmayan değerler veya veriler olarak tanımlanır. Örneğin, aşağıda verilen veri kümesindeki eksik veriler bulunmaktadır. 'Age' ve 'Cabin' sütunlarında bazı eksik değerlerin olduğunu görebilirsiniz.

3. Bir veri kümesinde eksik veriler nasıl ele alınır?

Kayıp verileri işlemenin çeşitli yolları vardır.

Eksik veri içeren satırlar bırakılır.
Birkaç eksik veri içeren sütunlar bırakılır.
Eksik veriler bir dizi veya sayısal sabitle doldurulur.
Eksik veriler, sütunun ortalama veya ortanca değeriyle değiştirilir.
Eksik veriyi tahmin etmek için çoklu regresyon analizleri kullanılır.
Eksik verileri rastgele hatalarla değiştirmek için birden çok sütun kullanılır.

4. Veri kümesinde eksik bir değer nasıl temsil edilir?

Eksik değerler veya boşluklar genellikle NaN ile temsil edilir. Numara değil anlamına gelir. Aşağıdaki görüntü, Pandas kullanılarak çıkarılan ve görüntülenen bir veri kümesinin ilk birkaç kaydını göstermektedir. “NaN” anahtar kelimeleri ise eksik değerleri temsil etmektedir. 👇

veri kümesinde eksik değer

5. Doğru değişkenleri seçmek için kullanılan özellik seçim yöntemleri nelerdir?

Doğru özellikleri seçmek veri analizi ve model oluşturma süreçlerinde kritik bir adımdır. Filtre, Sarma (Wrapper) ve gömülü olmak üzere üç ana özellik seçim yöntemi vardır.

1️⃣ Filtre Yöntemleri

Filtreleme yöntemleri genellikle ön işleme adımında kullanılır. Filtreleme yöntemleri, herhangi bir makine öğrenimi algoritmasından bağımsız olarak bir veri kümesinden özellikleri seçer. Hızlı, az kaynak gereksinimi olan ve yinelenen yöntemlerdir. Kullanılan bazı teknikler şunlardır:

Korelasyon Analizi: Değişkenler arasındaki ilişki incelenerek, hedef değişkenle güçlü korelasyona sahip olan değişkenler seçilir.
Varyans Analizi: Değişkenlerin varyansları incelenerek, düşük varyansa sahip değişkenler elenir.
Karşılaştırmalı İstatistikler: Gruplar arasındaki farklar değerlendirilerek, hedef değişkenle ilişkisi yüksek olan değişkenler seçilir.
Ki-kare Testi: Bir modelin gözlemlenen gerçek verilerle nasıl karşılaştırıldığını ölçen bir testtir.

2️⃣ Sarma (Wrapper) Yöntemleri

Sarmalayıcı yöntemlerde, özelliklerin bir alt kümesi kullanılarak model yinelemeli olarak eğitilir. Eğitilen modelin sonuçlarına göre daha fazla özellik eklenir veya çıkartılır. Hesaplama açısından filtreleme yöntemlerinden daha pahalıdırlar ancak daha iyi model doğruluğu sağlarlar. Kullanılan bazı teknikler şunlardır:

Işınlama (Forward Selection): Başlangıçta boş bir modelden başlanarak, en iyi özellikler sırayla eklenir.
Geri Çıkarma (Backward Elimination): Tüm özellikleri içeren bir modelden başlanarak, en az etkisi olan özellikler sırayla çıkartılır.
Recursive Feature Elimination (RFE): Modelin performansı değerlendirilerek, en düşük katkı sağlayan özellikler iteratif olarak çıkartılır.

3️⃣ Gömülü Yöntemler

Gömülü yöntemler, filtre ve sarma yöntemlerinin özelliklerini birleştiren yöntemlerdir. Gömülü yöntemler, filtre yöntemleri gibi daha hızlıdır, sarmalayıcı yöntemler gibi doğrudur ve özellik kombinasyonunu da dikkate alır.

Lasso ve Ridge Regresyon: Bu regresyon teknikleri, katsayıları sıfıra yakınlaştırarak gereksiz olan özellikleri filtreler.
Karar Ağaçları: Bu modeller, özelliklerin önem düzeylerini hesaplayarak, önemsiz özellikleri ayırt etmeye yardımcı olur.

6. Doğrulama seti ve test seti nedir?

🆗 Doğrulama seti, model parametrelerini optimize etmek için kullanılır. Eğitim setinin bir parçasıdır. Geliştirilmekte olan makine öğrenimi modeline aşırı uyum sağlamaktan kaçınmaya yardımcı olur.

🔎 Test seti, eğitilmiş bir makine öğrenimi modelinin tarafsız bir tahminini sağlamak, performansını değerlendirmek veya test etmek için kullanılır.

7. Veri biliminin dört ana bileşeni nedir?

1️⃣ Veri toplama ve temizleme

2️⃣ Veri Keşfi ve Görselleştirme

3️⃣ Model Oluşturma ve Analiz

4️⃣ Sonuçların Yorumlanması

8. Makine öğreniminde aşırı uydurma nedir? Aşırı uydurmadan nasıl kaçınılır?

Aşırı uydurma bir eğitim veri setinde çok iyi eğitilmiş ancak test ve doğrulama veri setinde başarısız olan bir modeli ifade eder. İstenmeyen bir makine öğrenimi davranışıdır.

Aşırı uydurma, bir model yanlış tahminler verebilir ve her tür yeni veri için iyi performans gösteremez.

Aşırı uydurma şu şekilde önlenebilir:

Model karmaşıklığını azaltarak, daha az değişkeni hesaba katarak ve sinir ağlarındaki parametre sayısını azaltarak modeli basit tutmak.
Çapraz doğrulama tekniklerini kullanmak.
Modeli daha fazla veriyle eğitmek.
Örnek sayısını artıran veriyi kullanmak.
Birleştirmeyi kullanmak (Bagging ve Boosting)
Aşırı uydurmaya neden olma olasılığı yüksek, belirli model parametrelerinde düzenlileştirme tekniklerini kullanmak.

9. Aşırı uyum nasıl tespit edilir?

Makine öğrenimi modellerinin doğruluğunu anlamak için model uygunluğunu test etmek önemlidir. Aşırı uyum modellerini tespit etmenin en iyi yöntemlerinden biri, K katmanlı çapraz doğrulama yöntemidir.

🗯️ K-katmanlı çapraz doğrulama, test yöntemlerinden biridir. Bu yöntemde, veriler aynı zamanda "kıvrımlar" olarak da adlandırılan k adet eşit büyüklükte alt kümeye bölünür. K-katlamalardan biri, uzatma seti veya doğrulama seti olarak da bilinen test seti olarak işlev görür ve geri kalan kıvrımlar modeli eğitir. Bu işlem, çok kez tekrarlanır.

10. Makine öğreniminde öneri sistemi nedir?

Öneri sistemleri, bir kullanıcının bazı ürünlere verdiği derecelendirmeleri veya ürün ile ilgili tercihlerini tahmin etmeye yönelik bilgi filtreleme sistemidir.

Örneğin, Amazon'daki ürün tavsiyeleri bölümü bir öneri sistemidir. Bu bölüm, kullanıcının arama geçmişine ve geçmiş siparişlerine dayalı ürünleri listeler.

11. SQL'deki farklı ilişki türleri nelerdir?

Dört ana SQL ilişkisi türü vardır:

1️⃣ One-to-One (Bire Bir): Bir tablonun her kaydın başka bir tablodaki tek bir kayıtla ilgili olması durumudur.
2️⃣ One-to-Many (Bir Çok İlişki): Bir tablodaki her kaydın başka bir tablodaki birkaç kayda bağlı olduğu durumdur.
3️⃣ Many-to-Many (Çoktan Çoğa): Birinci tablonun her bir kaydının ikinci tablodaki birden fazla kayıtla ilişkili olması ve ikinci tablodaki tek bir kaydın birinci tablonun birden fazla kaydıyla ilişkili olabilmesi durumudur.
4️⃣ Self-Referencing (Kendine Referans Veren): Bir tablonun kendisiyle bir bağlantı bildirmesi gerektiğinde ortaya çıkar. Bu tür ilişkilerde bir tablo, aynı tablodaki diğer kayıtlarla ilişkilendirilir.

12. Boyut Azaltma(Dimensionality Reduction) nedir? Faydaları nelerdir?

✅ Boyut azaltma, bir veri kümesindeki özelliklerin (veya boyutların) sayısını mümkün olduğu kadar fazla bilgiyi koruyarak azaltma işlemidir.

✅ Bir modelin karmaşıklığını azaltmak, öğrenme algoritmasının performansını iyileştirmek veya verileri görselleştirmeyi kolaylaştırmak için yapılır.

✅ PCA, SVD ve lineer diskriminant analizi gibi çeşitli teknikler vardır. Her teknik, önemli bilgileri korurken verileri daha düşük boyutlu bir alana yansıtmak için farklı bir yöntem kullanır.

13. Denetimli (Supervised) ve Denetimsiz (Unsupervised) öğrenme nedir?

👉 Denetimli (Supervised) öğrenme, etiketli veri kümelerinin kullanımıyla tanımlanan bir makine öğrenimi yaklaşımıdır. Bu veri kümeleri, algoritmaları ve verileri sınıflandırmak, sonuçları doğru bir şekilde tahmin etmek üzere eğitmek veya "denetlemek" için tasarlanmıştır.

👉 Denetimsiz (Unsupervised) öğrenme, etiketli yanıtlar olmadan girdi verilerini içeren veri kümelerinden çıkarımların yapıldığı yaklaşımdır. Denetimsiz öğrenme, etiketlenmemiş veri kümelerini analiz etmek ve kümelemek için makine öğrenimi algoritmalarını kullanır.

14. Denetimli (Supervised) ve Denetimsiz (Unsupervised) öğrenme arasındaki farklar nelerdir?

Denetimli Öğrenme	Denetimsiz Öğrenme
Karar Ağaçları, K-en yakın Komşu algoritması, Sinir Ağları, Regresyon ve Destek Vektör Makineleri gibi teknikler kullanır.	Anormallik Tespiti, Kümeleme, Gizli Değişken Modelleri ve Sinir Ağları gibi teknikler kullanır.
Amaç, yeni veriler için sonuçları tahmin etmektir.	Amaç, sonuçları analiz etmektir.
Etiketli girdi ve çıktı verilerini kullanır.	Etiketsiz verileri kullanır.
Basit bir yöntemdir ve genellikle R veya Python gibi programların kullanımıyla hesaplanır.	Daha karmaşık bir yöntemdir ve güçlü araçlara ihtiyaç duyar.

15. Seçim Yanlılığı (selection Bias) nedir ve çeşitli türleri nelerdir?

Seçim yanlılığı (selection bias), bir veri setinin seçim süreci nedeniyle temsil edilmemiş veya örneklem dışı bir alt kümenin analize dahil edilmesi sonucu ortaya çıkan bir hata türüdür.

Seçim yanlılığı, kohort çalışmaları, vaka kontrol çalışmaları ve kesitsel araştırmalar gibi katılımcıların seçiminin rastgele olmadığı çalışmalarda sıklıkla ortaya çıkar. Seçim yanlılığı bir sistematik hata türüdür.

Çeşitli seçim yanlılığı türleri vardır:

✔️ Örneklem Seçim Yanlılığı: Örnekleme sürecinde rastgele seçim yapılmaması veya belirli bir alt kümenin örneklem dışı bırakılması sonucu oluşur. Örneğin, bir anket yalnızca belirli bir yaş grubundan insanları içeriyorsa, bu anketin sonuçları genel nüfusu yansıtmayabilir.
✔️ Veri: Veri noktalarının seçilmesindeki hatalar veya önyargılar sonucu oluşan bir tür seçim yanlılığıdır.
✔️ Yıpratma: Katılımcıların kaybı, deneklerinin veya tamamlanmayan testlerin dikkate alınmaması durumudur.

16. Metin analizi için Python ve R arasından hangisini seçerdiniz?

Metin analizi için Python bazı nedenlerden dolayı R'ye üstünlük sağlar.

🆚 Python Pandas kütüphanesi, kullanımı kolay veri yapıları bulundurur. Buna ek olarak, yüksek performanslı veri analiz araçları sunar.

🆚 Python, tüm metin analizi türleri için daha hızlı bir performansa sahiptir.

17. Veri analizinde veri temizlemenin amacı nedir?

Veri temizleme, veri kümesindeki hataları, yinelemeleri ve alakasız verileri tanımlar ve düzeltir. Veri temizleme veri hazırlama sürecinin bir parçasıdır.

Veri kaynaklarının sayısı arttıkça, verilerin temizlenmesi için gereken süre katlanarak arttığından, veri temizleme göz korkutucu bir görev gibi görünebilir. Bunun nedeni, ek kaynaklar tarafından üretilen çok ve büyük miktardaki verilerdir.

Veri temizlemenin amacı şunlardır:

🧹 Farklı kaynaklardan gelen verilerin temizlenmesi, verilerin üzerinde çalışmayı daha kolay hale getirir.

🧹 Veri temizleme, makine öğrenimi modelinin doğruluğunu artırır.

🧹 Veri temizleme, akıllı kararlar alınmasına olanak tanıyan tutarlı ve yapılandırılmış, doğru veriler üretir.

🧹 Zamandan ve paradan tasarruf sağlayarak iyileştirme alanlarını vurgular.

18. Python'da Öklid mesafesi nasıl hesaplanabilir?

Öklid mesafesi, iki nokta arasındaki doğrusal uzaklığı ölçen bir metriktir. Python'da Öklid mesafesini hesaplamak için kullanabileceğiniz çok sayıda yerleşik modül ve işlev vardır. Bunun için, NumPy modülü, math.dist() ve distance.euclidean() işlevlerinden biri kullanılabilir.

📍 Numpy kullanarak şu şekilde hesaplanır:

19. Epoch nedir?

Epoch, tüm eğitim verilerinin aynı anda kullanıldığı zamandır. Makine öğrenimi modelini eğitmek için tek bir döngüde tüm eğitim verilerinin toplam yineleme sayısı olarak tanımlanır. Veri seti hem ileri hem de geri geçiş yaptığında bir epoch yani geçiş sayılır. Dönem sayısı bir hiperparametre olarak kabul edilir.

20. Yineleme nedir?

Yineleme, verilerin bir dönem içinde uygulanan farklı gruplar halinde sınıflandırılmasıdır.

21. Maliyet fonksiyonu nedir?

Maliyet fonksiyonu, modelin performansının ne kadar iyi olduğunu değerlendirmek için kullanılan bir araçtır.

22. Hiperparametreler nelerdir?

Hiperparametreler, değerleri öğrenme sürecini kontrol eden ve bir model parametrelerinin değerlerini belirleyen parametrelerdir. 'hyper_', bunların öğrenme sürecini ve bundan kaynaklanan model parametrelerini kontrol eden 'üst düzey' parametreler olduğunu gösterir. Kısaca, öğrenme sürecinden önce değeri belirlenen bir tür parametredir.

23. Toplu normalleştirme nedir?

Toplu normalleştirme (batch normalization), derin öğrenme ve yapay sinir ağlarında kullanılan, eğitim sırasında sinir ağlarının daha hızlı ve daha istikrarlı bir şekilde konverjans göstermesine yardımcı olan bir yöntemdir. Toplu normalleştirme, özellikle derin sinir ağlarının eğitimini daha verimli hale getirmek için geliştirilmiştir.

Data Science Kariyerinize Başlayın

Coderspace'de şirketler adaylara başvurur! Yazılımcılar, data scientistler Coderspace profilleriyle kendileri için en iyi şirketlerde çalışır. Coderspace’e üye olabilir ve sizin için doğru işi bulmanızı sağlayabiliriz.