Марчин Дерило: “Site Reliability инженерингът е нова професия със сериозна перспектива“

8 ноември 2019
Марчин Дерило: “Site Reliability инженерингът е нова професия със сериозна перспектива“
Какво работи Site Reliability инженерът? Какви качества и умения е нужно да притежава той? Какви инструменти за планиране, таргетиране и оценка използват в ежедневната си работа този тип специалисти? Именно за да отговори на всички тези въпроси и да разкаже повече за SRE като нова направление в ИТ сферата, в България пристигна Марчин Дерило, Site Reliability инженер в полския офис на DataArt.

Според него, търсенето на SR инженери през следващите години ще нараства, а в момента на пазара почти липсват готови специалисти. Поради тази причина подходящи за позицията биха били разработчици или DevOps инженери.

Той разказа и какво стои зад концепцията на „reliability“, която е в основата на SRE и включва следене на определени показатели в системата като availability, latency, performance, efficiency, change management, emergency response и capacity planning.

„Надеждността се измерва чрез бизнес метрики или т. нар. SLOs (Service Level Indicators). Важно е обаче те да не бъдат нито твърде много, нито твърде малко“, коментира Дерило.

Според него, при работата на Site Reliabilityинженерите се поставят и определени таргети, или т. нар. SLO (Service Level Objective). Те не бива да бъдат със стойност 100% тъй като това води до повишаване на разходите, често е непосилна задача, а и възпрепятства иновациите.         

Лекторът разказа също така за важността на т. нар. “Error бюджети“ – или бюджетите, свързани с възникването на грешки и проблеми, които следва да бъдат заложени предварително.

„Голяма част от работата на SRE инженерът е свързана с  т. нар. “Toil“ – това са такъв тип дейности, чрез които се постига автоматизация на повторяемите процеси. Site Reliability инженерите всъщност се стремят да намалят процента на TOIL, защото той не носи иновации, не продължава вечно и води до объркване относно ролята на SR инженера. В същото време обаче TOIL процесите не бива да се елиминират напълно, ето защо практиката е да представляват около 50% от дейността, такава е и политиката на Google“, разясни Марчин Дерило.

Според него, SR инженерингът е комплексна дейност, свързана човешка преценка, подобрение, стратегия, креативност. Освен това, работата изисква уменията и познанията, които има един добър софтуерен разработчик – писане на код за автоматизиране на процесите, тулове и фреймуърки, scalability к reliability. Работата на SR инженера включва също така системно инженерство, работа с документация, мониторинг, конфигуриране на услугите, консултиране.

„В Google – 50-60% от заемащите тази длъжност са софтуерни инженери, а около 40-50% - експерти, близки ди нивото на софтуерни инженери, но с допълнителни познания, свързани с unix,os internals, networking“, добави още той.