Какво е Data Science?
Data Science е мулти дисциплинарна област в компютърната наука, в която се използват научни методи, процеси, алгоритми и още множество похвати, за да се извлече по-обобщена или детайлна информация от набор структурирани или неструктурирани данни. В Data Science е залегнала същата концепция, която е залегнала в Data Mining и Big Data: използването на възможно най-мощния хардуер, на най-мощните програмни системи и най-ефективните алгоритми, за да се реши даден проблем или набор от проблеми.
Самият термин „Data Science“ се е използвал в различни контексти през последните тридесет години, но се е утвърдил като понятие с точно определено значение едва през последните няколко години с напредъка на дисциплини като машинното обучение (”Machine Learning”). Така през 60-те години на миналия век например терминът е използван като синоним на „компютърна наука“, но днес например правим значителна разлика между двете понятия и е немислимо да ги разглеждаме като синоними.
Първа стъпка към по-точното тълкуване на термина „Data Science“ е направена през 1996 г., на конференцията на International Federation of Classification Societies (IFCS) в Кобе. На нея за първи път понятието „Data Science“ е включено в името на самата конференция: „Data Science, classification, and related methods“.
През ноември 1997 г. Chien-Fu Jeff Wu провежда лекция на тема „Statistics = Data Science?“. В тази лекция той описва статистиката като съчетание от три дейности: събиране на данни, моделиране и анализ, и вземане на решения (“Descision Making”). В обобщението на лекцията си, той предлага понятието „Data Science“ да се използва вместо „Статистика“.
През 2001 г. Уилям Кливланд представя Data Science като самостоятелна дисциплина, която разширява традиционната статистика, съчетавайки събирането и обработката на данни с компютърните технологии. Той прави това, чрез своя материал, озаглавен „Data Science: An Action Plan for Expanding the Technical Areas of Field of Statistics“.
Следващата стъпка е направена през април 2002 г., когато Committee on Data for Science and Technology към International Council for Science, започва Data Science журнал, публикациите в който са фокусирани върху проблеми като същността на това какво е система от данни, тяхното споделяне в интернет и произтичащи законови казуси. Скоро след това, през януари 2003 г. Columbia University започва публикуването на „The Journal of Data Science“, който предоставя трибуна на всички работещи в сферата на Data Science да споделят своите виждания, изследвания и да обменят идеи.
Около 2007 г. носителят на награда Тюринг – Джим Грей – предвижда „наука направлявана от данните“ като „четвърта парадигма“ на науката, която използва изчислителния анализ на огромни обеми от данни като основен научен метод. Според него наближава времето на свят, в който цялата научна литература е онлайн, всички научни данни са онлайн и те взаимодействат помежду си.
През 2013 г. е организирана първата „Европейска конференция по анализ на данни“ („European Conference on Data Analysis“ или “ECDA”), която се провежда в Люксембург. На нея се полагат основите на Европейската асоциация за Data Science.
Така постепенно от синоним на „компютърна наука“, науката за данните и тяхната обработка преминава през синоним за статистическа наука, за да се еманципира и обособи в отделна дисциплина, част от статистиката, но и разпростираща се отвъд нея в същото време. Ако искате да придобиете знания и опит в събирането, обработката и анализа на данни – специално за вас сме подготвили курса „Data Science – юни 2019“. Неговата пълноценна програма ще ви помогне да разберете отделните аспекти на цялостния процес по събиране и обработка на данни, тяхното моделиране и изграждане на цялостно приложение от суровите данни до процеса по вземане на решение. Не се колебайте, а се запишете още днес!