5 особености на Data Science
Без значение как я наричате („статистика“, „машинно обучение“, „наука за данните“ или „анализиране“) тази дисциплина се намира в постоянен възход през последните 25 години. Ако искате да направите първите си стъпки в сферата на науката за данни (Data Science) има няколко особености, с които трябва да сте наясно. Ето кои са те:
1. Данните никога не са „чисти“
Анализите, които не включват в себе си данни са най-обикновена колекция от хипотези и теории. Данните са това, което превръщат една теория или хипотеза в прогноза, в алгоритъм, изобщо в способ, чрез който ние можем да прогнозираме бъдещото поведение на обекта, който изследваме. Когато работите с данни, винаги трябва да имате предвид, че без значение от опита и знанията ви, данните никога не могат да са съвършено „чисти“. Това означава, че в тях ще има грешни стойности или липсващи такива. Освен това големият проблем, пред който сте изправени с вашите бази от данни е това да свържете два или повече набора от данни в една кохерентна цялост. Това е проблем пред който се изправят редовно дори компании, които имат десетилетия опит в събирането и обработката на бази данни.
2. Ще прекарате доста време в „почистване“ и „поправяне“ на данни
В следствие на това, което казахме по-горе, вие ще прекарате доста време в почистване и обработка на данните за вашия модел на потребление. А тези дейности отнемат приблизително три-четвърти от времето, което ще прекарате в обработка на вашите данни. Това може да е доста демотивиращо за начинаещи кадри, които все още нямат изградена представа за същността на дейността, която ще извършват.
3. Няма напълно автоматизирана наука за данни. Трябва да си „изцапате ръцете“
До тук разбрахте, че данните които събирате, не са „чисти“, а и без значение от това вие ще прекарате значително време в обработка на данните. Всичко това означава, че за вашата работа няма „бутони“, натискането на които създават аналитичен модел. Това е нещо, което трябва да направите вие и да го направите „ръчно“. Всички видове данни са различни, както са различни и проблемите, които изследваме с тях. Вашата работа е да създавате модели за решаване на сходни проблеми, но самия процес на „създаване“ става „ръчно“, без автоматизиращи опции на ваша страна. В зависимост от вашия опит и знания вие ще си „изцапате ръцете“ повече или по-малко, но бъдете сигурни, че „изцапването“ е неизбежно.
4. Никой не го интересува как сте го направили
Потребителите на прогнозни модели от науката от данни са хора в спектъра на т.нар. „decision making“ т.е. хора, които взимат решения, както и други лица, които имат изпълнителни функции и всичко което те искат е работещ и полезен модел. Докато за самият учен, изградил модела е интересно да представи техническа експертиза на създадения от него модел и да покаже степента на взискателност, която той има, това много често може да се окаже един непродуктивен подход, спрямо потребителите на вашия продукт. Да си го кажем направо – вашите потенциални купувачи се интересуват от това какво могат да направят с вашия продукт, с вашия модел, а не как той работи.
5. Това че вашият аналитичен модел е страхотен, не означава, че ще види бял свят
Да създадете добър аналитичен модел далеч не означава, че той ще види бял свят т.е. ще бъде имплементиран и прилаган. За да съм напълно честен с вас – ако една трета от ваш проект бъде внедрена и реализирана, то вие трябва да се считате за късметлии. Причините за отказ от даден модел, без значение колко е добър, могат да са най-разнообразни: необходимост от промяната на данни, проблемът, който изследвате се е променил, никой не е заинтересован от решението, което предлагате или просто внедряването му е твърде скъпо, приходите не оправдават разходите, някой друг ви е изпреварил или просто самото ви решение може да е изпреварило времето си. Без значение от причината помнете едно – не се отчайвайте и продължавайте напред!
Това са най-общите насоки, които можем да ви дадем по отношение на това какво представлява работата в Data Science сферата. А ако искате да придобиете реални умения в събирането и обработката на данни, специално за вас сме подготвили курса „Data Science - юни 2018“. Очакваме ви!