A legtöbb szervezetet elárasztja a sok adat, és a növekvő igény arra, hogy minél többen férjenek hozzá.
A kutatók és vállalatok többféle technológiai fejlesztést ötvöznek annak érdekében, hogy specializált adatbázis motorokat hozzanak létre olyan alkalmazások számára, mint az üzleti intelligencia, adattárház és valósidejű adatelemzés. Ezen új motorok legtöbbje a Red Hat Enterprise Linux 5-ön fut.
A téma újdonságaival kapcsolatos információkkal Dr. Michael Stonebraker szolgál, aki adatbázis technológia kutató, és a Berkeley Egyetem számítástechnika professzora 25 éve. Ő volt a fő fejlesztő mérnöke az INGRES relációs adatbázis menedzsment rendszernek (RDBMS) és a POSTGRES objetum-relációs adatbázis menedzsment rendszernek (DBMS). Ma is széles körben használják mindkét technológiát. Emellett Stonebraker részt vett az Aurora folyamfeldolgozó motor fejlesztésében társmérnökként, valamint a C-Store magas teljesítményű, olvasásra optimalizált adatbázis motor fejlesztésében az MIT-n.
Red Hat: Ön az új adatbázis architektúrák neves szószólója és az univerzális adatbázisok bírálója. Mit ért pontosan az univerzális adatbázisok elnevezés alatt?
MS: Az univerzális adatbázisok alatt a 30 éves adatbázis motorokat értem, amiket egy célra terveztek – üzleti adatok feldolgozására-, de később más célokra is elkezdték őket használni, mint péládul üzleti intelligencia, adattárház és valósidejű adatelemzés. Az adatbázistechnológia-innováció hiánya és a jelenlegi adatbázis gyártók, a meglévő rend fenntartására irányuló nyilvánvaló érdeke miatt az ügyfeleknek 30 éves adatbázis motorokat kell alkalmazniuk a mai modern szükségletek kielégítésére.
A fő RDBMS gyártóktól származó adatbázis motorok a korai, 1970-es évekbeli relációs prototípusok, nevezetesen a System R és az INGRES közvetlen leszármazottjai. A korai rendszereket elsősorban az üzleti adatok feldolgozási szükségleteinek kielégítésére hozták létre, amit ma online tranzakció feldolgozásnak (OLTP) nevezünk. Ezeket az akkori drága hardverekhez és tulajdonosi operációs rendszerekhez is optimalizálták.
De az igények megnőttek, így a szervezeteknek fontos lett az üzleti intelligencia vagy az adattárház megoldás, amely során többen kérdeznek le adatot ad hoc módon SQL-t használva, kiegészítve a hagyományosabb update-intenzív OLTP alkalmazásaikat. A hardverek és rendszerszoftverek is továbbfejlődtek, sokkal több kapacitást és feldolgozó erőt nyújtva kevesebb pénzért. A Red Hat Enterprise Linux egy tökéletes példa erre.
Idővel az RDBMS gyártók átültették a jellemzőket saját motorjaikba az új alkalmazások támogatása érdekében: például materializált view-k, bitmap indexek, és adatkockák az adattárház piacra. Azonban ez olyan, mint amikor az egyetlen eszközünk a kalapács, ezért mindent szögnek nézünk. A feladatok széles skálájának egyfajta adatbázis ma már nem felel meg. Az alapvető architektúrák rosszak.
Red Hat: A hagyományos RDBMS-ek már évek óta léteznek, és számos szervezet elkötelezte magát irántuk. Megengedhetik maguknak a váltást?
MS: Ahogy én látom, nem engedhetik meg azt maguknak, hogy ne váltsanak az üzleti intelligencia és más lekérdezés-orientált alkalmazásokra, mivel ezek adnak az üzletnek versenyelőnyt.
Red Hat: Tehát mi az alternatíva?
MS: Az alternatívát ezekhez az alkalmazásokhoz a specializált adatbázis motorok jelentik. Az adatbázisok innovációját a hardverek és operációs rendszerek továbbfejlesztésével ötvözve lehetővé válik az olyan új adatbázis motorok létrehozása, amik rendkívüli árbani és teljesítménybeli javulást eredményeznek az univerzális adatbázisokkal szemben. Rendkívüli alatt például a százszoros teljesítménybeli előnyt értem az univerzális adatbázisokkal szemben.
Red Hat: Milyen innovációkról van szó?
MS: Például a masszív párhuzamosítás, ami grid-alapú általános hardvert és modern operációs rendszert használ, olyat mint például a Red Hat Enterprise Linux. Ide tartoznak még az oszlop-orientált architektúrák, a tömörítés nagyfokú használata és az új tranzakciós architektúrák.
Egy kicsit bővebben erről a négy innovációról:
A masszív párhuzamosítás lehetővé teszi a szabványos hálózatkezelő technológiákkal csatlakoztatott általános PC-k nagyszámú halmazának összeállítását, ami a drága tulajdonosi szoftvereket helyettesíti.
Az új tranzakciós architektúrákkal lehetséges az adattárházak egyszerre történő terhelése és lekérdezése anélkül, hogy bármelyik feladatra szánt teljesítmény is lecsökkenne. Az adattárházakat folytonosan lehet terhelni, nem csak a ma használt éjszakai időkeretekben. Ez a képesség különösen fontos a webalapú vállalatoknak, melyek éjjel-nappal futnak.
Az oszlop-orientált adatbázis architektúra egy nagy előnyt nyújt: sorok helyett oszlopokban tárolja az adatokat. Ugyan ezt már az RDBMS-ek és a legújabb eszközgyártók is használják, de ők még mindig SQL felhasználói felületet nyújtanak ügyfeleinek. Az oszlop-orientált adatbázis architektúrában minden oszlop egy attribútum értékeit tartalmazza (például alkalmazott vagy fizetés). Ezért egy tipikus üzleti intelligencia lekérdezésnek, ami csak néhány oszlophoz fér hozzá minden táblázatból, csak azokat a specifikus oszlopokat kell olvasnia a lemezről. Ennek eredményeképpen sokkal kevesebb lemezműveletre van szükségük. Az oszlop adatbázisokat sokkal gyorsabban létre lehet hozni, mint a hagyományos sor-orientált adatbázisokat.
Az adattömörítés nagyfokú használata lehetővé teszi Moore törvényének gyakorlati kiaknázást. A processzortechnológia teljesítményben sokkal gyorsabban növekszik, mint a lemez sávszélessége. Így van értelme a nagyfokú tömörítés használatának és a lekérdezések végrehajtásának tömörített adaton, ami kiküszöböli a jelenlegi lemezek sávszélességének határait.
Egy másik jelentős fejlesztés az SQL parancsok végrehatjása valósidejű adatfolyamokon és eseményeken. Az SQL új verziói időablakokkal és bővített üzenetküldési architektúrával az olyan valósidejű információ aggregált elemzését tudják végrehajtani, mint például a pénzügyi forgalmi és tőzsdeadatok, mindezt olyan hatékonyan, mint ahogyan a hagyományos SQL adatbázisok le tudják kérdezni a tárolt adatokat. Ez egy aktív kutatási terület több egyetemen.
Ez a megközelítés hasznos a pénzügyi intézményeknek, amelyek elemezni akarják az árazással kapcsolatos „megjelölt” adatokat, valamint a multi-player játékoldalakaknak vagy a reklám alapú weboldalaknak is, amelyek tranzakciókon keresztül jutnak bevételhez.
Red Hat: Tehát mi a szerepe a Linuxnak az adatbázisok reneszánszában?
MS: A Linux nagyszerű árat és teljesítményt biztosít ezen motorok számára. Hadd mondjak egy példát, a Verticát:
Volt egy ügyfelünk, egy telekommunikációs vállalat, adattárház problémával. Az ügyfélnek egy 1 TB-os adattárháza volt, ami egy tulajdonosi adattárház alkalmazásokat készítő gyártótól származó rendszeren futott. Az ügyfél a lekérdezések futtatására használta az adattárházat az úgynevezett részletezett hívásrekordokon, és nem volt megelégedve a teljesítménnyel. Így az ügyfél odaadta nekünk az adatait, a sémáját és a népszerű lekérdezések készletét. Mi implementáltuk a sémáját, ugyanúgy terhelésnek tettük ki a Vertica adatbázison. A lekérdezések 25-ször gyorsabban futottak.
De van itt még valami, ami ennél is jobb. A Vertica teszt csak egy 2500 dolláros szervert igényelt, ami Red Hat Enterprise Linux 4-et futtatott. Hasonlítsuk ezt a költséget össze a tulajdonosi, 28 csomópontos adattárház alkalmazásokkal, és megkapjuk a nettó megtakarítást.
Red Hat: Mit jelent ez a Red Hat közösségnek?
MS: A Red Hat Enterprise Linux felhasználóknak és fejlesztőknek van néhány hatásos és igazolható oka arra, hogy Enterprise Linuxot használjon adatbázis platformként. A Vertica adatbázis motor létrehozása során a Linux stratégiai választás volt számunkra. A Linux mindazt a modern operációs rendszer platformot és árelőnyt nyújtotta számunkra, amire szükségünk volt az árban és teljesítményben keletkező előnyök szállításához.