Dosya Veri tekilleştirme 01 NİSAN 2013 / 08:32

Dünyanın verisiyle başa çıkmanın yeni yolu: Tekilleştirme

2020 yılına kadar dünyadaki toplam veri miktarının 50 kat büyüyeceğine dair tahminler havada uçuşurken, bunca verinin nasıl yönetileceği ve yedekleneceği de ayrı bir merak konusu. Bu konuda en çok ön plana çıkan yöntem ise deduplication, yani tekilleştirme.

Veri yedekleme uzmanlarının neredeyse bütün yaşamı, bilişim sistemleri altyapılarının en verimsiz iki bileşeni olan depolama ve ağ altyapısı arasında geçiyor. Bir yanda sistemlerden topladıkları yedeklerin eldeki veri depolama altyapısında mümkün olduğunca az yer kaplamasını sağlamaya çalışıyorlar, bir yandan da ağ altyapısını fazla zorlamadan eldeki verileri uzak konumlara hızlı bir şekilde aktarmakla uğraşıyorlar. Uğraşıyorlar ama bir yanda veri miktarındaki büyüme, bir yanda iş sürekliliği, bir yanda regülasyonlara uyum derken yedekleme sistemlerinin üzerindeki iş yükü de çoğaldıkça çoğalıyor.
Bunun üzerine endüstride ‘deduplication’, yani Türkçe adıyla ‘tekilleştirme’ diye bir yöntem ortaya çıktı. Bu iş için özel olarak geliştirilen sistemler, özel veri denetleme algoritmaları derken yöntemin gayet de güzel işlediğini gördüler. Tekilleştirme, tıpkı Mısır mitolojisinde Seth’in Osiris’i parçalara ayırıp İsis’in bu parçaları birleştirmesi gibi veriyi yedeklerken parçalara ayırıp, daha sonra gerektiğinde bu parçaları birleştirme prensibine dayalı bir teknoloji. Parçalara ayırdığınız verinin sadece değişen bölümlerini yedeklemenize imkan sağladığı için de oldukça verimli. Uygulandığı ortamlarda yedeklenecek veri miktarını onlarca, hatta zaman zaman yüzlerce kat azaltacak ölçüde başarılı sonuçlar ortaya koyuyor.
Bu iş için öncelikle yedekleme alanını ve bant genişliğini verimli kullanabilmek adına veriyi deyim yerindeyse lime lime doğruyorsunuz. Daha sonra da birbiriyle eş olan parçaları bir kenara ayırıp bunları tek bir parça olarak ifade ediyorsunuz. Örneğin elinizde 10 tane eşdeğer parça varsa, bunları tek bir parça olarak ifade etmek 10 kat sıkıştırmak anlamına geliyor.
Veriyi saklamadan önce DNA’larına ayırmak
Bu iş o kadar küçük ölçekte gerçekleşiyor ki, gerektiğinde 16 KB’lık bir veriyi 4 KB’lık dört parçaya ayırıp sadece değişen parçayı saklayabilmeniz dahi söz konusu. Bunların bir kısmı makine çıkışında belirleniyor, kimisinin kaydı yedekleme ortamında tutuluyor. Daha sonra tüm kümenin üzerine veri dilimlerinin nerede tutulduğunu, gerektiğinde nasıl birleştirileceğini gösteren bir harita yerleştiriyorsunuz. Bitti mi? Bitmedi. Bir de bu sistemin toplam bütünlüğünün kontrol altında tutulması lazım. Olası fiziksel durumlara karşı anlık görüntü alınması, felaket ihtimaline karşılık tüm bunların farklı bir konumda replikasyonu.

Tüm bunlara karşılık kazanç ise azımsanmayacak seviyede. Hele de ortalıkta birbiriyle eşlediğiniz sanal makineleriniz, benzer sunucularınız varsa sağlayabileceğiniz kazanç öyle böyle değil.
2020 yılına kadar dünyadaki toplam veri miktarının 50 kat artacağına dair öngörülerin havada uçuştuğu bir dünyada bu tam da ihtiyacınız olan şey. Hele ki birçok büyük şirket için, konvansiyonel veri yedekleme yaklaşımının ortaya koyduğu performans darlığının yedekleme penceresi adı verilen yedekleme için ayrılan süreyi çoktan geçmiş olduğunu düşünürseniz.
Gel gelelim, günlük yedeklenecek veri kütlesindeki değişimi neredeyse 4 KB’lik kümelere kadar bölebilen bu sistemlerin kurulumu ve işletmesi ayrı bir uzmanlık gerektiriyor. Çünkü günün sonunda bu şekilde parçalanarak aktarılmış herhangi bir yedeği tekrar hayata döndürmek isterseniz, daha önce attığınız tüm adımların farkında olmak gerekiyor. İş bir kez kontrolden çıkarsa, yandığınızın resmi.
Seth gibi parçalamak kolay. Zor olan İsis gibi birleştirebilmek.
Dolayısıyla şirketlere bundan birkaç yıl öncesine kadar da tekilleştirmenin ne olduğunu anlatmak ve şirketi bu teknolojileri kullanmaya ikna etmek durumundayken, şirketler artık tekilleştirmeyi olması gereken bir özellik olarak algılamaya başlamışlar.
4S Ürün Teknolojileri Danışmanı Volkan Ünlüer, tekilleştirmeyi kısaca “Bir veri kümesi içerisinde yer alan ve tekrarlanan veri parçalarının kopyalarının ortadan kaldırılması yöntemiyle işleyen bir veri sıkıştırma yöntemi” olarak tanımlıyor. Sebep, özellikle veritabanı ve doküman yönetimi sistemlerinde giderek artan depolama alanı ihtiyaçlarına bağlı olarak ve kurumsal ağlar üzerinde giderek artan veri trafiğini göz önünde bulundurarak, tekrarlanan veri parçalarının getirdiği yükü ortadan kaldırmak.
“Çünkü günümüzde bilginin bu kadar çok büyüdüğü bir ortamda, veriyi yedeklemeye kalkıştığımızda süre yetmiyor” diyor Datacore Müşteri ve Profesyonel Hizmetler Müdürü Hüseyin Şaşmaz. Her kurum, sahip olduğu veriyi “Back-up Window” (yedekleme penceresi) adı verilen bir zamanda yedeklemek zorunda. Yani mesai saatleri dışında, hafta sonu tatillerinde, elin ayağın ortalıktan iyice çekildiği zamanlarda. Aksi halde sistemlerin performansının etkilenmesi söz konusu. Dahası, yeni bir gün başladığında hala dünün yedeğini almakla uğraşıyorsanız zaten düzenli yedekleme yapmanızın bir anlamı yok. Şaşmaz, “Bu iş için ayrılan süre en fazla 12 saat civarındadır. Veriniz artsa da bu süre artmaz” diyor.
Peki tekilleştirmenin sıkıştırmadan farkı ne? Nasıl oluyor da bu teknoloji günümüzün en büyük sorunlarından birine bu denli etkili bir çözüm üretebiliyor? Destek Bilgisayar Danışmanı Aydın Paykoç, “Winzip ve benzeri sıkıştırma yazılımlarıyla zaten uzun yıllardır bu teknoloji dosya bazında kullanılıyordu” diyor. “Ancak son yıllarda bu teknolojiyi yedekleme yazılımlarıyla birlikte kullanarak sadece tek bir dosya üzerinde değil, büyük dosya sistemleri ve disk blokları üzerinde de çok verimli çalışabileceği ispatlandı. Kurumlarda toplanan veri büyüklüğünün artması ve verilerin farklı fiziksel konumlara yedeklenmesi ihtiyacı, tekilleştirmenin popülerliğinin artmasındaki en önemli neden.”
KoçSistem Veri Merkezi Paylaşımlı Hizmetler ve Bulut Bilişim Grup Yöneticisi Bülent Okta da benzer görüşleri paylaşıyor. “Son yıllarda bu teknolojinin bu kadar popüler olmasının başlıca nedeni, veri büyümesinin hızla devam edecek olması ve bu büyümeyle meydana gelen yönetimsel süreçlerin optimizasyonunun gerekliliğidir” diyen Okta, tekilleştirmeyi “Özelliği birebir aynı olan verilerin birden çok kopyasını bulundurmayı önleyerek ve yalnızca benzersiz olan verileri depolayarak verilerin kapladığı alanı azaltan bir depolama ve yedekleme optimizasyonu teknolojisi” olarak tanımlıyor.

Her şey 1,1 trilyon dolarlık bilgiyi saklayabilmek için

Symantec Türkiye Satış Müdürü Murat Tora’nın tekilleştirme konusunda paylaştığı bilgiler son derece ilginç. Tora şunları söylüyor: “2012 yılında, dünya genelinde 36 ülkede, 4 bin 500’den fazla kurumun yöneticileriyle yaptığımız anketin sonucunda kurumlar için bilginin kurumun toplam değerinin yüzde 49’una karşılık geldiğini tespit ettik. Bu rakamdan yola çıkarak bilginin 1,1 trilyon dolar değerinde olduğunu söylememiz mümkün. Bu eğilim giderek hızlanarak devam ediyor ve büyük veriden anlamlı bilgileri çıkaran şirketler rekabet avantajı elde ediyorlar. Dolayısıyla büyük veri kavramını incelerken klasik veri işleme, inceleme ve paylaşım yaklaşımlarını unutmak ya da bu kavramlara çok daha esnek bakabilmekte fayda var.
Büyük veri çözümlerini değerlendirirken kapsamlı bir BT anlayışına yönelmek önem taşıyor. Öncelikle saklanan verilerin korunması ve güvenliği sağlanması şart. Veri miktarları büyüdüğü için, bu verilerin saklanması sırasında tekilleştirme teknolojileriyle uyumlu çalışan yedekleme çözümlerinin kurumlara önemli tasarruflar sağlayacağı da ortada.”

Tekilleştirme iş sürekliliğine önem verenlerin sadık hizmetkarı

Tekilleştirme, birbirini tekrar eden dosya altı veri bloklarının, yedekleme operasyonunun ömrü boyunca sadece bir kez depolanmasını sağlayan bir algoritma. Böylece tekrar eden veri parçası sadece bir kere gerçekten depolanıyor, diğer tekrarlar ise diske yazılmıyor ve birer sanal bağlantıyla yazılmış olan ana kopyaya yönlendiriliyor. Böylece aynı dosya ya da veri bloğunun tekrar tekrar yazılarak çok sayıda kopyasının oluşması engelleniyor. GlassHouse Türkiye Satış Yöneticisi Ömer Öztürk, “Kurumsal yedekleme stratejisine sahip tüm kurumlarda, günümüz ihtiyaçlarına cevap veren teknolojilerin getirdiği yoğun veri artışıyla baş edebilmek için bilinenlerin dışında, farklı bir çözüme ve teknolojiye ihtiyaç vardı. Tekilleştirme teknolojisinin doğuş sebebi budur” diyor.
Fakat dahası da var. Uluslararası ve yerel düzenlemelerin yönlendirmesi, küresel güvenlik hassasiyetinin artması ve doğal afetlere karşı alınması gereken önlemler çerçevesinde operasyonel ve mali avantaj sağlayan tekilleştirme teknolojisi sayesinde kurumlar kartuşlarını bir yerden bir yere göndermeden WAN üzerinden tekilleştirilmiş olan yedekleme verisini bir başka yere kopyalayabiliyor. “Daha önce çok pahalı, maliyetli ve hatta riskli olan bir operasyon bu teknolojiyle çok daha uygulanabilir hale gelmiş durumda” diyor Öztürk. “Birçok farklı konumda ofisi, operasyonu olan şirketlerin bütün konumlarda yedekleme çözümü üretmesi gerekliliğini ortadan kaldırıyor. Farklı coğrafyalarda mobilize olmuş şirketlerin dizüstü ve masaüstü bilgisayar yedekleri artık dakikalar içerisinde otomatik olarak veri merkezlerine ulaşabiliyor. Özetle tekilleştirme daha hızlı, daha güvenli, daha ekonomik, daha çevreci çözümleriyle veri güvenliği ve iş sürekliliğine önem veren kurumların sadık hizmetkarı olarak çalışmaya devam ediyor.”

Daha az veri, daha hızlı yedekleme demek

“Yönetmemiz gereken veri her geçen yıl katlanarak artıyor” diyor IBM Türk Teknoloji Lideri Kıvanç Uslu. “Buna bağlı olarak da korumamız ve arşivleyerek saklamamız gereken veri miktarı da hızla artmaya devam ediyor. Kişisel verilerimizi bile evlerimizde birkaç TB’lık harici disklerde saklamaya başladık. Birçok küçük ölçekli kurumda 10 TB veriyle karşılaşmak mümkün. Çok temel bir yedekleme politikasını kullanan ve 1 TB’lık kritik veritabanı olan bir müşteri, yaklaşık olarak 24 TB veriyi yıllık saklamak zorunda kalabiliyor. Bu da ciddi bir yedekleme maliyeti çıkarıyor. Sonuç olarak bu verileri daha akıllıca ve maliyetleri düşürerek yönetecek bir altyapıya ihtiyacımız var.”
Bu ihtiyaca cevap olarak, daha önce progressive incremental yedekleme ve sub-file backup gibi yöntemlerle verilerin sadece değiştiğinde yedeklenmesini sağlayan çözümler yerini artık bu çözümlerin bir aşama ilerisine geçerek “tekilleştirme” adı verilen ve verilerin blok bazında incelenerek sadece bloklardaki değişikliklerin yedeklenmesine odaklanan çözüme bırakmış. “Tekilleştirme sayesinde verilerin sadece değişen blokları yedeklenerek daha küçük depolama alanlarında saklanabilmesi sağlanıyor ve maliyetlerin ciddi anlamda azalması sağlanıyor” diyor Uslu. “Daha az veri yedeklenmesi, daha hızlı yedekleme anlamına geliyor.”

Veri ne kadar büyükse tekilleştirme o kadar önemli

Datacore Müşteri ve Profesyonel Hizmetler Müdürü Hüseyin Şaşmaz’ın verdiği bilgiye göre günümüzde ‘dosya bazında tekilleştirme’ ve ‘blok bazında tekilleştirme’ olmak üzere tekilleştirmenin iki çeşidi var. Aynı tip dosya içeriklerine bakılarak gerçekleşen dosya bazında tekilleştirme yeterince etkili bir yapı olmadığı için günümüzde çok yaygın olarak kullanılmıyor. Blok bazlı tekilleştirme ise veriden bağımsız olarak ortak blokların paydasına dayalı olduğu için öncelikli olarak tercih ediliyor. Bu evrede en önemli etken verinin büyüklüğü.
Hüseyin Şaşmaz, bu sırada içerde neler olup bittiğini şu sözlerle özetliyor: “Hangi kurum olursa olsun, eğer veri büyükse ve yedekleyeceği ortam kurum için büyük önem taşıyorsa bütün tekilleştirme ortamları disklere yapılır. Çünkü tekilleştirmeyi çalıştıran motor ilgili kaynaktan bilgiyi alır, işler, içindeki ortak bloklara bakar o bloklar ile ilgili bir Hash-ID üretir. Bu evrede onunla ilgili indeks bilgisini tutar ve veri yazılırken yine o indeks Hash-ID’sini kullanarak aynı tip veriyi kontrol eder. Bu süreçte aynı tip veri varsa ilgili yere yazmaz. Sonuç olarak tekilleştirme, kurumlara büyük oranda yer ve zaman tasarrufu sağlar. Kurumların yedekleme yapmadan faaliyetlerini sürdürmeleri büyük risktir. Kurumlar yedeklemeyle tekilleştirme kullanmazsa kaynak, zaman ve iş sürekliliği açısından ciddi sıkıntılar yaşayabilir.”
ETİKETLER : Sayı:915