Николай Хабаров от DataArt разказва повече за професията „Специалист по гласови технологии“

Николай Хабаров от DataArt разказва повече за професията „Специалист по гласови технологии“
Не е ли странно как понякога животът имитира изкуството? Помислете само - десетилетия наред единственото място, където можехме да видим устройства за разпознаване на глас, беше в научнофантастични филми като "2001: Космическа одисея", "Блейд рънър", "Стар трек" и пр. И те изглеждаха толкова... sci-fi, че не можехме да предположим, че един ден ще бъдат част от ежедневието ни. И то до такава степен, че вече ги приемаме за даденост и не ни правят почти никакво впечатление.

Благодарение на технологии като виртуалния личен асистент Siri на Apple, Alexa на Amazon или Cortana на Microsoft този вид иновации навлязоха в нова ера от развитието си. Те все повече се превръщат в естествен инструмент за взаимодействие с "умните" предмети на бита около нас и се очаква да проникват все по-дълбоко във всички аспекти на личния и професионалния ни живот през следващите няколко години. Затова и много софтуерни разработчици гледат на тази ниша като особено перспективна и се специализират в създаването на точно такъв тип технологии. Растящият интерес към тях пък от своя страна ще подобри значително кариерните перспективи и търсенето и на други профили, като например учените, които изучават естествените езици. Защо? Защото технологиите стават все по-сложни и от тях ще се изисква да имат все по-широко (да не кажем близко до човешкото) разбиране на контекста на говорене с всичките му слоеве от значения.

Като цяло специалистите по гласови технологии трябва да имат добри познания в областта на обработката на звука, изкуствения интелект и компютърните науки. Опитът с обработката на статистически данни и моделирането, основано на роли, също е от съществено значение. В по-голямата си част платформите, базирани на гласово взаимодействие, се пишат на езиците C++ и Voice XML. Развиването на речта обаче е само част от нарастващата сложност на компютрите, пореден етап от тяхната еволюция. Всъщност способността на съвременните изчислителните системи за анализ и обработка на данни вече е толкова голяма, че те могат да правят неща, които допреди няколко години се смятаха за ексклузивна привилегия на хората. Занапред новите технологии ще интегрират не само гласови модели, а все по-широка гама от човешките възможности за изразяване, емоционалност и интелект. Както се казва, в тази област sky is the limit, границата е небето. А вероятно и далеч отвъд него.

Николай Хабаров

Николай Хабаров е софтуерен архитект и старши софтуерен разработчик в глобалната технологична компания DataArt. Работи в сферата на информационните технологии от 10 години. Завършил е "Радиоинженерство" в Техническия университет във Воронеж, Русия. Притежава богат опит сферата на IoT (интернет на нещата) и гласово активираните технологии и внедряването им в различни софтуерни и хардуерни системи - от микроконтролери до съвременни ARM процесори, както и в приложения за крайни потребители, облачни решения и приложения за Android. Има особен интерес към най-съвременните технологии, R&D (от англ. — Research and Development - проучване и развитие) проектите и прилагането на иновативни подходи. Участва в редица конференции и семинари, по време на които с удоволствие споделя своя опит и познания. Вдъхновява се от идеята, залегнала в софтуера с отворен код, а в свободното си време се занимава с разработката на свои собствени проекти, свързани с автомобилно и компютърно цифрово програмно управление.

Моята професия

Аз съм софтуерен архитект в глобалната технологична компания DataArt. Специализиран съм в сферата на интернет на нещата и също така съм GD (Google Developer) експерт. Разбира се, че това е професия с перспектива. Съвременният човек е заобиколен от високотехнологични устройства, но тези устройства се нуждаят от разработчици и софтуерни инженери, за да функционират. Всяка година се появяват все повече и все по-разнообразни иновативни услуги и технологии, в това число и гласово активирани. Дори и добре познати неща, като автомобилите например, вече включват редица технологии, функции с гласови команди, автоматизирани процеси, а това няма как да се случи без разработчици.

Моето образование

По образование съм радиоинженер. Завършил съм Техническия университет във Воронеж, Русия. Във времето, в което ми предстоеше да кандидатствам, нямаше много места, където да можеш да изучаваш компютърни науки и програмиране. Затова избрах специалност, която да е най-близка до това, с което исках да се занимавам. Изключително съм признателен на един от професорите ми. Той водеше курс по основни компютърни умения и по време на първата лекция попита всички в залата: "Здравейте, я ми кажете сега какво знаете за компютрите." След това започна да обяснява простички неща и да задава разни въпроси, за да провери нивото на групата. След 15 минути се обърна към мен и ми каза да спра да отговарям и да мълча. След като свърши лекцията, ме извика и ми заяви: "Ти не си за този курс. Искаш ли да ти преподавам индивидуално?" И така той беше човекът, който ме въведе в света на изкуствените невронни мрежи и ме запозна с алгоритмите за разпознаване на човешкия глас.

Моят път дотук

Това беше доста вълнуващ, но и трудоемък процес. Моят баща също е радиоинженер и именно той ме запали по техниката още когато бях дете – да поправям и разглобявам разни устройства, да разглеждам частите им. Когато бях на 12 години, нямаше смартфони, компютри и всички тези неща, които свързват днешните тийнейджъри. Но аз много исках да си общувам с моите съседски приятели. Направихме си частна компутируема телефонна мрежа, която свързваше домовете ни. Жиците стигаха до дома ми, където моята миницентрала, изградена с няколко релета, работеше в продължение на няколко години. След време всички в квартала знаеха за хобито ми, свързано с техниката и технологиите, и постоянно ми носеха разни неща, които да поправям. Именно в този период един мой приятел ми донесе книга за програмния език BASIC. Това беше и първият програмен език, с който се запознах, бях на 14 години.

Моите задачи и отговорности

Работата ми включва много и различни дейности – като започнем от самото писане на код до разработване на програмни интерфейси, архитектурни диаграми и документация и завършим с избора на технологични инструменти, които да бъдат използвани за създаването на съответния проект. Например избор на разнообразни услуги за гласово разпознаване от различните клиенти.

Още когато бях студент, се обучавах как да използвам математиката с цел разпознаване на звуци и думи в човешката реч. В наши дни тази функционалност е внедрена в много и различни платформи. Дори вече е възможно не само да се разпознават думите, но и смисълът на цялото изречение. Технологиите се развиват в посока диалог, а не само гласово разпознаване.

Нужните умения и опит

Нужни са умения за разработване на софтуер, както във всяка друга област, свързана с програмиране. В случая може да са необходими и математически познания, както и познания по отношение на обработката на звука. Но с всяка изминала година последните две неща нямат чак такава съществена роля, тъй като всичко е имплементирано и като разработчик просто избираш нужния инструмент и го използваш по подходящия начин.

Моите предизвикателства

Като цяло технологиите, свързани с гласово разпознаване, са предимно онлайн базирани и когато се разработва подобна услуга, тя трябва да е много адаптивна, бърза и надеждна. Това обаче невинаги е възможно поради факта, че на някои места технологиите и скоростта на интернет не са на много високо ниво. Никой не би искал да чака, докато компютърът "мисли" или не успява да се справи с гласовата команда. В този смисъл създаването на решения, които да работят бързо и надеждно, е особен приоритет. Друго предизвикателство пред подобен тип технологии е голямото разнообразие от езици по света и тяхната специфика, което нерядко затруднява технологиите за разпознаване на глас.

Моето удовлетворение

Щастлив съм, когато не просто успея да създам работещ продукт, но и когато видя как този продукт работи по възможно най-добрия начин и е използван от много хора, улеснява по някакъв начин тяхната работа и ежедневие. Гласовите технологии дават бързина - например, когато шофираме и искаме да въведем команда в навигацията. Гласовите технологии все повече навлизат в ежедневието и в "умните" домове - климатични системи, електроуреди, вече е възможно много от тези неща да се управляват посредством глас. Не бих казал, че това е технология, която коренно променя нас и живота ни, но със сигурност е удобен начин за взаимодействие между хората и технологиите и за улесняване на ежедневието ни.

Заплатата

Според мен отговорът на този въпрос зависи от редица фактори – най-вече от географското местоположение. Стартовата заплата може да бъде няколкостотин долара в локална компания, но да достигне след 3-5-7 години до диапазон от 3 до 4.5 хил. долара. Това е напълно постижимо заплащане за старши разработчици.

Моите източници на информация

Като при всяка технологична професия, а и не само, най-удобният, актуален и важен източник на информация си остават интернет и Google. Каквато и информация да ми е нужна, винаги мога да я намеря там.

Моите планове за развитие

Бих искал да направя крачка в малко по-различна посока – да се занимавам с водене на лекции, маркетинг, технологичен евангелизъм.

Моят съвет към бъдещите специалисти

Бих ги посъветвал следното - не се концентрирайте върху конкретна платформа или фреймуърк. Научете принципите, които се използват там. По този начин няма да ви бъде трудно да преминете от Google Speech API към IBM Watson Speed to Text API например. Също така съветвам хората, които се насочват към подобна професия, да не бъдат мързеливи, нека четат колкото се може повече, да изучават как работят системите в дълбочина. Може и никога да не се наложи да изграждат система за гласово разпознаване от нулата, но ще бъде от полза да познавате нещата в тяхната цялост - какво може да се направи чрез дадена система и какво не.

Търсени умения

  • аналитично и алгоритмично мислене
  • добро ниво на програмиране
  • добри познания по приложна математика и статистика
  • умения за работа с данни
  • познания, свързани с обработването на звука

*Статията е публикувана в специалното издание на "Кариери" - "Моята кариера (март 2018): Перспективните професии".