Sve informacije o Srcu i uslugama pronađite na javnom webu Srca.

Napredno računanje

U travnju slavljeničke 2021. godine predstavljamo Napredno računanje

Napredno računanje

Napredno računanje je primjena najsuvremenijih računalnih sustava u rješavanju resursno zahtjevnih izazova. Primjeri naprednog računanja su područja računarstva visokih performansi (engl. High Performance Computing, HPC) i računarstva s velikom propusnošću (engl. High Throughput Computing, HTC). U Srcu se naprednim računanjem bavi tim od osam ljudi: Katarina, Nadica, Jurica, Martin, Daniel, Ivan, Dobriša i Emir.

Što je to HPC?

HPC (engl. High Performance Computing) je mogućnost obrade podataka i izvođenja kompleksnih algoritama velikom brzinom. Kako bi se računanje kompleksnih zadataka ubrzalo, zadaci se paraleliziraju. Paralelizacijom se omogućava podjela rješavanja problema i na više manjih radnji, operacija ili proračuna koji se izvode istovremeno. Naravno, da bi paralelizacija uopće bila moguća, aplikacije moraju podržavati takav način rada, što razvoj aplikacija čini znatno složenijim nego prije. Računalni klaster je skup umreženih samostalnih računala (čvorova) koji djeluju kao jedinstven računalni resurs. Osnovno svojstvo klastera je da se sastoji od standardnih komponenti dostupnih na tržištu što omogućava jednostavno proširivanje. U počecima su klasteri smatrani „superračunalima za siromahe“ koji si nisu mogli priuštiti skupa rješenja renomiranih proizvođača poput Craya i IBM-a. Razvojem tehnologije i programskih rješenja, računalni klasteri su postali najrasprostranjenija okolina za HPC. Uz same čvorove, snaga klastera leži u brzoj računalnoj mreži koja omogućava učinkovitu komunikaciju među paraleliziranim zadacima, zatim u učinkovitom spremištu za pohranu podataka s čvorova te sve više u ubrzivačima poput grafičkih procesora koji višestruko ubrzavaju izvođenje određenih algoritama.

Slika tima iz 2021. godine

Slika tima iz 2018. godine

Isabella

Računalni klaster Isabella usluga je Srca koja pruža HPC infrastrukturu svim istraživačima u Hrvatskoj. U HPC-u se performanse računalnog klastera iskazuju brojem FLOPS (engl. FLoating point OPerations per Second) koji prikazuje koliko operacija s brojevima s pomičnim zarezom zapisanih dvostrukom preciznošću klaster može izvršiti u sekundi. Performanse klastera Isabella su oko 150 TFLOPS-a.

Kako bismo pobliže predočili koliku računalnu moć klaster Isabella ima, možemo je usporediti s brojem prijenosnih računala potrebnih da bismo dobili ekvivalentnu vrijednost. Mjereći softverom HPL koji predstavlja industrijski standard za ispitivanje performansi klastera, računalna moć jednog uobičajenog prijenosnog računala iz 2019. godine s procesorom Intel Core i5 i 16 GB radne memorije iznosi 100 GFLOPS-a. Tako možemo reći da klaster Isabella objedinjuje oko 1.500 prijenosnih računala pod uvjetom da su ta ista računala međusobno povezana mrežom Infiniband propusnosti 56 Gbit/s i da im se podaci dopremaju s raspodijeljenog spremišnog sustava brzine 14 GB/s.

Povijest naprednog računanja u Srcu započinje prvim klasterom Dgrid s osam jednoprocesorskih čvorova i klasterskom distribucijom Rocks. Uspostavljen je 2002. godine za potrebe priključivanja Hrvatske europskom projektu DataGrid koji je vodio CERN s ciljem izgradnje globalne mreže resursa za analizu i obradu velike količine podataka dobivenih znanstvenim istraživanjima LHC (Large Hadron Collider) eksperimenta. Dgrid postaje klaster Isabella 8. svibnja 2002. godine te se stavlja na raspolaganje akademskoj zajednici. Od tada do danas klaster Isabella je prošao desetak nadogradnji te je 2018. godine dosegao današnju strukturu.

Što je to HTC?

U HTC računarstvu (engl. High Throughput Computing) drugačija je potreba za iznimnom računalnom snagom. Dok HPC pokušava riješiti problem koliko brzo se može riješiti neki zadatak, HTC pokušava riješiti problem koliko zadataka se može riješiti u nekom zadanom vremenu. HTC savršeno odgovara teškim i kompleksnim zadacima gdje nije nužna komunikacija između pojedinih dijelova izvođenja ili je riječ o velikom broju istovjetnih zadataka.

CRO NGI je raspodijeljena računalna okolina koja je pružala računalnu okolinu za HTC potrebe istraživača u Hrvatskoj, a 2019. godine evoluirala je u HTC Cloud. HTC Cloud usluga je zasnovana na računarstvu u oblaku (engl. cloud computing) koja korisnicima omogućava stvaranje i upotrebu virtualnih poslužitelja s visokom učinkovitošću. Korisnicima je dostupno 2400 virtualnih procesorskih jezgri, koje osigurava 600 stvarnih te 150 TB podatkovnog spremišta. HTC Cloud namijenjen je aplikacijama koje se ne mogu izvoditi na računalnom klasteru, poput sustava za obradu i analizu velikih podataka (npr. Hadoop, Apache Spark ili Storm), interaktivnih aplikacija poput R Studio ili Jupyter Notebooks ili bilo kojih računalno zahtjevnih aplikacija koje zahtijevaju interakciju korisnika u radu.


Slika: karakteristike klastera 2002. i 2020. godine

Veći iskoraci u konfiguraciji Isabelle

Klaster Isabella svojim dizajnom omogućava fleksibilno dodavanje različitih komponenti - računalnih, spremišnih ili specifičnih poput grafičkih procesora. U gotovo 20 godina rada iskoraci koje vrijedi istaknuti bili su:

2004. klaster Isabella je prvi u Hrvatskoj uveo računalnu mrežu Infiniband koja je zbog svoje visoke propusnosti i malog kašnjenja postala de facto standard u računalnim klasterima. Infiniband je uz pomoć tehnologije RDMA (engl. Remote Direct Memory Access) približio brzinu kojom pojedini čvor pristupa memoriji drugih čvorova s brzinom pristupanja vlastitoj memoriji, čime je omogućeno izvođenje velikih paralelnih aplikacija.

2014. uvođenje programskog sustava ScaleMP, koji je omogućio spajanje osam poslužitelja u jedno virtualno računalo (engl. Single System Image; SSI) sa 160 procesorskih jezgri i 2 TB radne memorije. Sustav je prvenstveno namijenjen za analize velikih skupova podataka koji se mogu smještati izravno u veliku radnu memoriju virtualnog računala što bitno olakšava i ubrzava analizu.

2019. uvođenje 12 grafičkih kartica NVIDIA Tesla V100 čime je Isabella postala prvi sustav u Hrvatskoj koji pruža tenzorske procesorske jezgre optimizirane za područje umjetne inteligencije. Sukladno modernim trendovima u HPC-u, sve veći udio FLOPS-a u ukupnoj računalnoj moći računalnih klastera dolazi upravo iz grafičkih procesora. Ovim proširenjem klaster Isabella je sa svega tri nova čvora s grafičkim procesorima dobio novih 84 TFLOPS-a, čime je nadmašeno dotadašnjih 65 TFLOPS-a ostvarenih sa čak 132 čvora s klasičnim procesorima.

Najviše na Isabelli rade IRB-ovci

Do danas je zahvaljujući dostupnosti usluga za napredno računanje objavljeno oko 350 znanstvenih radova. Na klasteru Isabella trenutačno su korisnicima na raspolaganju 53 znanstvene aplikacije

Tijekom svih ovih godina postojanja Isabelle, kao korisnici s najvećim potrebama pokazali su se znanstvenici s Instituta Ruđer Bošković koji su samo u protekloj godini iskoristili čak 1.551 procesorsku godinu, odnosno 56 % ukupno iskorištenog procesorskog vremena. Od drugih zahtjevnijih korisnika vrijedi spomenuti Sveučilište u Osijeku, Prirodoslovno-matematičke fakultete u Zagrebu i Splitu te Farmaceutsko-biokemijski fakultet u Zagrebu.

Za svoje korisnike održavamo radionice i predavanja, bilo da je riječ o samostalnim ili događanjima u sklopu drugih većih događanja Srca poput konferencija.

Jedna od dobrih suradnji koju izdvajamo

Ministarstvo zaštite okoliša i prirode 2016. godine pokrenulo je projekt „Jačanje kapaciteta Ministarstva zaštite okoliša i prirode za prilagodbu klimatskim promjenama te priprema Nacrta Strategije prilagodbe klimatskim promjenama" s ciljem izrade nacrta nacionalne Strategije prilagodbe klimatskim promjenama za razdoblje do 2040. godine s pogledom na 2070. godinu i nacrta Akcijskog plana. Srce je sudjelovalo u projektu omogućavanjem modeliranja i simuliranja potrebnog za dobivanje podataka za izradu nacrta Strategije. U okviru projekta nabavljen je računalni sustav - superračunalo VELEbit sa 64 radna čvora s ukupno 1792 procesorske jezgre te 6 spremišnih čvorova ukupnog kapaciteta 220 TB standardnog spremišta i 12 TB brzog spremišta (sa SSD diskovima). Izmjerene performanse pomoću programa HPL (engl. High Performance Linpack) bile su 44,4 TFLOPS-a. Rezultati dobiveni računanjem dugoročno su pohranjeni na institucijski repozitorij DHMZ-a uspostavljen na usluzi Srca Dabar, čime je demonstrirana važna uloga Srca u životnom ciklusu istraživačkih podataka.

Sustav je inicijalno služio isključivo za potrebe projekta, a do kraja 2017. godine integriran je u ostatak Isabelle i postao je dostupan svim korisnicima Isabelle. Uz same resurse, i jedan od istraživača koji su intenzivno radili na VELEbitu kasnije se priključio timu Isabelle. Ova je suradnja pokazala pravu vrijednost nacionalnog HPC resursa - stručnjaci iz Srca omogućili su infrastrukturu nužnu za uspješno provođenje projekta, a infrastruktura po završetku projekta nije ugašena ili zaboravljena, nego je dana na raspolaganju svim istraživačima u Hrvatskoj.

Neki lijepi trenuci koji se pamte

Pružanje usluga za napredno računanje ujedno znači usku suradnju sa znanstvenicima iz različitih znanstvenih područja - biolozi, fizičari, kemičari, matematičari i brojni drugi. Njihova istraživanja bila bi nemoguća bez resursa i podrške u instalaciji i izvođenju različitih znanstvenih programa. Zato se nerijetko dogodi da usluga ili članovi tima završe u zahvalama u radovima objavljenim u renomiranim časopisima (npr. Nature) ili završnim radovima poput diplomskih radova, magisterija ili doktorata pa u konačnici i na proslavama povodom objava radova.😊

Prilikom održavanja radionica o korištenju računalnog klastera Isabella uvijek se korisnicima pokazuju i sami strojevi koji čine klaster u računalnoj hali. Jednom prilikom je jedna od korisnica slikala Isabellu i rekla kako je to njena najbolja prijateljica na Sveučilištu. 😊

Nema ih puno, ali sjećamo se jednog lošeg trenutka

Najkritičnije razdoblje za računalni klaster Isabellu bilo je kada sustav hlađenja računalne hale nije bio dostatan za sve čvorove Isabelle u vrućim ljetnim mjesecima. Kako bi se omogućio normalan rad svih sustava, dio računalnih čvorova je bio privremeno ugašen. Kasnijim proširenjem sustava hlađenja omogućen je nesmetan rad puno veće količine resursa tijekom cijele godine.

Najčešća pitanja korisnika

Najčešća pitanja korisnika odnose se na alat za raspoređivanje poslova, odnosno na „čekanje u redu na klasteru“, poput „Zašto se moj podneseni posao ne krene izvršavati/računati odmah?“ Iako je, u odnosu na korisnike drugih usluga Srca, broj korisnika usluga naprednog računanja relativno manji, njihovi su zahtjevi za računalnim resursima znatno veći. Stoga je, nažalost (ali ne zadugo), odgovor na najčešće pitanje naših korisnika taj da su trenutni kapaciteti klastera nedostatni za optimalno i trenutno izvršavanje svih poslova i da je potrebno malo strpljenja do realizacije infrastrukture HR-ZOO-a, kad bi resursi trebali biti znatno veći i dostatni za sve.

Ostala česta pitanja proizlaze iz činjenice da je klaster Isabella namijenjen šarolikom spektru istraživača, a ne jednoj točno ciljanoj skupini. Što je više polja kojima se istraživači bave, to je i količina aplikacija kojima žele računati veća, a ponašanje aplikacija na klasteru različitije. Stoga je drugo najčešće pitanje "Može li moja aplikacija na vaš klaster?". Tu nastupaju inženjeri Srca koji korisničke aplikacije nastoje prvo pripremiti za izvršavanje na klasteru, a zatim ih pomnim praćenjem resursa korisničkog računa nastoje i optimizirati kako bi se najbolje moglo iskoristiti dostupne resurse.

Pamtimo jednu anegdotu. Krenuli smo s klasičnom pripremom korisničke aplikacije na klasteru te praćenjem resursa i daljnjim ugađanjem aplikacije ne bi li se račun izvršio što brže. Prvi problemi počeli su se nazirati na samim krajevima računa gdje se aplikacija počela ponašati nestabilno, konstantno javljajući pogrešku o nedostatnim resursima, iako je ih imala sasvim dovoljno. Tijekom tri mjeseca aplikaciji se udovoljavalo šireći je na više procesorskih jezgri distribuiranih na više fizičkih čvorova, potom dajući joj veći raspon slobodne radne memorije na sustavu ScaleMP pa naposljetku selidbom na brže spremište koje je tada postojalo. No rezultat je uvijek bio isti; prisilno prekidanje računa iz nepoznatih razloga. Nije nam preostalo ništa drugo nego tražiti pomoć i pisati originalnim programerima spomenute aplikacije. Odgovor koji je na kraju dobiven od renomiranog profesora koji je vodio cijeli razvoj aplikacije je išao ovako nekako:

"Unaprijed se ispričavam ako odgovor bude zvučao uvredljivo i ako se iz njega može iščitati da niste baš svjesni što pokušavate. Ovaj račun je u domeni fantazije i korisnik mora biti svjestan da ne samo da nadilazi granice same aplikacije, već nadilazi i granice poznate fizike. Vjerujem da niste Alisa u Zemlji Čudesa?"

Jedna naša korisnica, mlada računalna kemičarka, svoju je kućnu ljubimicu nazvala po Isabelli. Bellini su hobiji spavanje, provaljivanje u hladnjak i gledanje tramvaja s prozora, a najdraže jelo su joj poslastice za mačke s lososom. Iako je dobila ime po klasteru, ne voli terminale: kada tipkaju, ukućani imaju manje vremena za maženje Belle.

Nositelj projekta: Srce
Oznaka: KK.01.1.1.08.0001
Vrijednost projekta: 196.802.438,11 HRK
EU sufinanciranje: 167.282.072,40 HRK
Razdoblje provedbe: 1.7.2017. - 1.9.2021.
Kontakt: hr-zoo@srce.hrwww.srce.hr/hr-zoo

Projekt je sufinancirala Europska unija iz Europskog fonda za regionalni razvoj.

Napredno računanje - pogled u budućnost kroz projekt HR-ZOO

HR-ZOO infrastruktura  će znanstvenoj i akademskoj zajednici dugoročno osigurati napredne računalne i spremišne resurse te mrežnu povezanost nužnu za modernu i multidisciplinarnu znanost, vrhunska istraživanja i obrazovni sustav Republike Hrvatske. HPC resurs HR-ZOO-a probit će granicu od PFLOPS-a i istraživačima pružiti planiranih 1,4 PFLOPS-a, čvorove povezane mrežom Infiniband propusnosti 100 Gbit/s te spremištem planirane brzine 100 GB/s. Veliki dio HPC resursa činit će najnovije grafičke kartice što će omogućiti istraživanje u području umjetne inteligencije. Usluga elastičnog računanja u oblaku nadogradit će HTC Cloud na planiranih 15.000 procesorskih jezgri te 2 PB standardnog i 200 TB brzog podatkovnog prostora. HR-ZOO će omogućiti skladištenje do planiranih 20 PB podataka putem datotečnih i objektnih protokola. Uz računalne resurse HR-ZOO će pružati komercijalni znanstveni softver nužan za provođenje računalno-zahtjevnih istraživanja te tim vrhunski osposobljenih stručnjaka (e-znanstvenika) za specijaliziranu podršku istraživačima.