За мотивация - Kaggle - Titanic: Machine Learning from Disaster
След личен опит от този уикенд, силно препоръчвам Kaggle - Titanic: Machine Learning from Disaster. Задачката е направена точно за започващи (като повечето от нас).
1. Много, много работа с Pandas докато се изчистят данните. Прилагат същите неща, които гледахме предната лекция.
2. Разбираем data set, с реалистични въпросителни (Пр. Сега какво да ги правя тия NaNs?).
3. Има състезателен елемент - правиш си моделче според силите, прогнозираш, пускаш си прогнозата, казват ти колко е добра.
За начало на курса ми подейства добре.
Линкче: https://www.kaggle.com/c/titanic
При мене поне беше 80% работа с Pandas, докато си вкарам данните във вид, в който мога да ги ползвам за модела. От тези 80%, половината време чистех собствени грешки (колони, добавени не където трябва, грешно изтрити такива и прочие). Беше ми доста полезно и се вързва със следващата тема.
Самият модел беше, естествено, гугълнат :). Исках да пробвам накакъв базов вариант на невронна мрежа, видя ми се над възможностите ми и се спрях на logistic regression (8ма лекция от този курс). Не се получи лошо, като за първи път, но имам един куп неща още за пробване и донапасване.
https://www.dataquest.io/blog/kaggle-fundamentals/ аз ползвах това за ориентир в началото на годината като го правих по време на предния data science. И мисълта ми беше че поне 50% от хората в курса сигурно още се чудят какво става и какво е Python поне на нашия курс беше така.