10 ключови термина в областта на ML и AI, които да си припомните преди DataArt IT NonStop

10 ключови термина в областта на ML и AI, които да си припомните преди DataArt IT NonStop
IT NonStop е международна технологична конференция, която DataArt организира от 2014 г. насам. Тази година събитието ще се проведе в периода 18-20 ноември, като за втори път това ще се случи изцяло онлайн.

Наред с Data Science и облачните технологии, сред основните теми на IT NonStop 2021 ще бъдат изкуственият интелект и машинното обучение. Тези популярни сфери набират все по-голяма скорост и едновременно с това чрез тях навлизат и нови термини, използвани от експертите. Ето някои от тях:

Learning algorithm (1) е част от код, набор от недвусмислени инструкции, които позволяват да бъдат установени модели в масив от данни и да се подготви модел за машинно обучение въз основа на тях. Генетичните алгоритми (Genetic Algorithms) (2) са един от многото видове ML алгоритми, представляващи евристичен метод, вдъхновен от принципите на естествения подбор. Най-често в машинното обучение такива алгоритми се използват за решаване на оптимизационни проблеми при обработка на изображения, в роботиката, при създаването на игри, планиране на маршрути, компютърно творчество и т.н.

По време на IT NonStop 2021 генетичните алгоритми ще бъдат представени като част от презентацията на Робърт Енокян от Армения и Пол Хора от Полша.

Всеки проект за машинно обучение зависи от информацията, на която се базира. Следователно въпросите за съхранението и извличането на данни също са част от работата на специалистите по изкуствен интелект. Езерото с данни или Data Lake (3) е универсално хранилище за анализи, което ви позволява да съхранявате голямо количество структурирани, полуструктурирани и неструктурирани данни. В известен смисъл „плоското езеро“ ("flat lake") се противопоставя на традиционното йерархично съхранение на данни, известно под термина Data Warehouse (4). Съществува и комбиниран тип съхранение – т. нар. Data Lakehouse (5), коeто преодолява много от ограниченията, присъщи на неговите прототипи, съчетавайки гъвкавостта на езерото с по-удобно управление. 

Друга важна концепция са т. нар. High Dimensional Data) (7) - данни с големи размери, представляващи масиви, при които броят на характеристиките надвишава броя на наблюденията.

На IT NonStop 2021 темата за управлението на данни ще е силно застъпена в презентацията на Виталий Бондаренко от Лвов, Украйна.

Важен акцент в конференцията ще бъде и представянето на един от българските лектори в нея - Ивайло Станчев. Той ще разкаже за една интересна концепция в областта на управлението на данни и машинното обучение, известна под терминa Data Poisoning (6) . Това е най-опасната атака, на която може да стане жертва изкуственият интелект - манипулация, при която грешка от етапа на обучение, принуждава модела да взема неправилни решения в бъдеще.

Връщайки се директно към алгоритмите за машинно обучение, насочваме вниманието ви към системата YOLO (You Look Only Once) (8) , която разпознава обекти в реално време. На конференцията IT NonStop 2021 Марк Хамазаспян от Армения ще говори за създаване на подготвен модел, който може да различава реални обекти от техните изображения.

Deep Learning (9) е друг важен термин, който означава набор от методи, базирани на преподаване на общи понятия, а не на алгоритми за конкретни задачи. Идеята на дълбокото обучение е да имитира човешкия мисловен процес и да намира най-пълното си проявление в архитектурата на дълбоката невронна мрежа (Deep Neural Network) (10). Ако тази тема ви се струва интересна, определено си заслужава да изслушате презентацията на Томаш Стачлевски от Полша. Той ще разкаже как можете да обучите собствена невронна мрежа за идентифициране на обекти, уловени в обектива на камерата.

Речник на текста:

  1. ALGORITHM - Алгоритъмът е метод или набор от инструкции, който ви позволява да подготвите модел за машинно обучение.
  2. GENETIC ALGORITHM е вид алгоритъм, вдъхновен от принципите на естествения подбор, който обикновено се използва за решаване на задачи, свързани с оптимизацията.
  3. DATA LAKE - хранилище, което ви позволява да съхранявате огромно количество неструктурирани данни.
  4. DATA WAREHOUSE – голяма база данни от разнородни източници, ориентирана към извършване на задълбочен бизнес анализ.
  5. DATA LAKEHOUSE - комбиниран тип хранилище, което съчетава характеристиките на езеро с данни и хранилище на данни.
  6. DATA POISONING - манипулация, при която грешка, присъща на етапа на обучение, принуждава модела да взема неправилни решения.
  7. НIGH DIMENSIONAL DATA - многоизмерни данни, при които броят на характеристиките надвишава броя на наблюденията.
  8. YOLO – това е съкращение от израза „You Look Only Once“  и се отнася за алгоритъм, който е предназначен да разпознава обекти от изображения в реално време. 
  9. DEEP LEARNING - дълбоко или задълбочено обучение - вид машинно обучение, при което съответният модел за обучение е насочен към широк набор от проблеми, а не в отговор на конкретен въпрос.
  10. DEEP NEURAL NETWORK е сложна изкуствена мрежа, състояща се от няколко слоя и имитираща човешките невронни връзки. 

Очакваме ви на IT NonStop 2021 от 18 до 20 ноември!

В конференцията ще се включат специалисти от водещи технологични компании, сред които Microsoft, NVIDIA, AWS, Ocado и др.

Участието е безплатно, но е необходима предварителна регистрация.