Categories

All (26)

AI (8)

anomaly_detection (1)

bias (2)

clustering (2)

data_cleaning (2)

data_exploration (1)

data_science (26)

deep_learning (2)

deepfakes (1)

dimension_reduction (1)

distance_measures (1)

embedding (1)

embeddings (2)

ensembles (1)

gans (1)

interpretability (1)

metrics (1)

nlp (1)

optimization (1)

plotting (1)

pretrained_models (1)

random_forest (1)

reinforcement_learning (1)

reproducibility (1)

supervised_learning (9)

synthetic_media (1)

text_processing (1)

unsupervised_learning (4)

visualization (1)

xgboost (1)

Introduction

ABCs of data science is intended for anyone who wants to learn more about data science, regardless of skill level. It aims to give readers a high level overview of various data science concepts, so that they can explore these topics further. Note that these blogs were written before the explosion of LLMs but should hopefully provide some intuition into other data science techniques.

A is for Artificial Intelligence

data_science

AI

B is for Bias

data_science

bias

interpretability

C is for Clustering

data_science

clustering

unsupervised_learning

D is for Deep Learning

data_science

deep_learning

supervised_learning

AI

E is for Embeddings

data_science

embeddings

unsupervised_learning

AI

F is for F1 score

data_science

metrics

supervised_learning

AI

G is for Gradient Descent

data_science

optimization

supervised_learning

AI

H is for HDBSCAN

data_science

clustering

unsupervised_learning

I is for Interpretability

data_science

supervised_learning

AI

bias

J is for Jaccard metric

data_science

embeddings

distance_measures

K is for K-fold cross-validation

data_science

supervised_learning

AI

L is for Labelling Data

data_science

supervised_learning

AI

M is for Munging Data

data_science

data_cleaning

N is for Natural Language Processing (NLP)

data_science

nlp

text_processing

O is for Outlier Detection

data_science

unsupervised_learning

anomaly_detection

P is for Pandas

data_science

data_cleaning

data_exploration

Q is for Q-learning

data_science

reinforcement_learning

R is for Reproducibility

data_science

reproducibility

S is for Supervised Learning

data_science

supervised_learning

random_forest

deep_learning

T is for Transfer Learning

data_science

supervised_learning

pretrained_models

U is for UMAP

data_science

embedding

dimension_reduction

V is for Visualization

data_science

visualization

plotting

W is for Wasserstein GANs

data_science

synthetic_media

gans

deepfakes

Y is for You Should Talk to Your Clients

data_science

X is for XGBoost

data_science

supervised_learning

xgboost

ensembles

Z is for Zero to Done

data_science