
IDC, 2025 yılına kadar iş bilgilerinin %80’den fazlasının yapılandırılmamış verilerden oluşacağını tahmin ediyor.
Ve “yapılandırılmamış” terimi yanlış bir adlandırma olabilir, çünkü tüm dosyaların aranabilecekleri ve sıralanabilecekleri bir tür meta verisi vardır, örneğin, işletmelerin elinde çok büyük miktarda bu tür veri vardır.
Bu makalede, yapılandırılmamış verilerle çalışmanın ve genellikle dosya veya nesnenin ihtiyaç duyduğu depolamanın özelliklerini ele alıyoruz.
Geçmişte, görüntüler, ses kayıtları, videolar, sohbet günlükleri ve çeşitli türden belgeler büyük ölçüde yalnızca bir depolama yükümlülüğüydü ve onu yönetmesi, organize etmesi ve güvende tutması gereken herkes için baş ağrısı olarak görülüyordu.
Ancak artık yapılandırılmamış veriler, değerli bir iş bilgisi kaynağı olarak görülüyor. Analitik işleme ile bundan değer elde edilebilir – örneğin, AI/ML’yi reklam görselleri setlerine karşı çalıştırmak ve site ziyaretçilerinin tıklama davranışı için gördüklerini haritalamak mümkündür. Yapılandırılmamış görüntü verilerinin analizi, editoryal karar vermeyi yönlendirebilecek yapılandırılmış alanlar oluşturabilir.
Başka yerlerde, uzun süredir tozlu ve erişimi zor teyp arşivlerine gönderilen yedeklemeler artık analitik işleme için potansiyel bir veri kaynağı olarak görülüyor. Ve fidye yazılımı tehdidi gündemin üst sıralarında yer aldığından, kurtarılacak yedeklerin gerekliliği her zamankinden daha alakalı.
Yapılandırılmış, yapılandırılmamış, yarı yapılandırılmış
Geniş anlamda yapılandırılmamış veri, önceden tanımlanmış bir veri modeline uymayan veri ve bilgilerdir – başka bir deyişle, ilişkisel bir veritabanının dışında oluşturulan ve yaşayan bilgilerdir.
Sistemler tarafından üretilen iş bilgileri, tipik örnekler olarak bir satış sistemi tarafından oluşturulan ve temel veritabanında depolanan müşteri ve ürün ayrıntıları, sipariş numaraları, stok seviyeleri ve sevkiyat bilgileri ile büyük olasılıkla yapılandırılmıştır.
Bunlar, tablo tabanlı bir şema ve satırlarda ve sütunlarda tutulan verilerle yapılandırılmış, verilerin çok hızlı yazılmasına ve sorgulanmasına olanak tanıyan ve çok iyi işlem bütünlüğüne sahip SQL veritabanlarıdır. SQL veritabanları, kullanımda olan en performanslı ve görev açısından kritik uygulamaların merkezinde yer alır.
Yapılandırılmamış/yarı yapılandırılmış
Yapılandırılmamış veriler genellikle insanlar tarafından oluşturulur ve e-posta, sosyal medya gönderileri, ses kayıtları, resimler, videolar, notlar ve PDF gibi belgeler içerir.
Bahsedildiği gibi, çoğu yapılandırılmamış veri aslında sizin yarı yapılandırılmış diyeceğiniz şey olabilir ve bir veritabanında tutulmasa da – bu mümkün olsa da – meta verilerinde bir yapı vardır. Örneğin, teslim edilen bir öğenin görüntüsü, kamera dosyalarından alınan meta veriler onu yarı yapılandırılmış yapsa da, yüzeysel olarak yapılandırılmamış olacaktır.
Ve sonra, bir kuruluşun tüm verilerinin kopyalandığı, sıkıştırıldığı, şifrelendiği ve yedekleme satıcısının (genellikle tescilli) biçiminde paketlendiği yedekleme dosyaları vardır.
Yedeklemelerin her tür veriyi bir araya getirmesi, onu yapılandırılmamış bir veri sorunu haline getiriyor ve fidye yazılımı tehdidinin artmasıyla muhtemelen her zamankinden daha fazla ilgili.
Yapılandırılmamış ve yarı yapılandırılmış depolama ihtiyaçları
Gördüğümüz gibi, yapılandırılmamış veriler, bir veritabanı kullanılarak oluşturulmadığı gerçeğiyle aşağı yukarı tanımlanır. Yapılandırılmamış verilere daha sonraki yaşamlarında daha fazla yapı uygulanması söz konusu olabilir, ancak daha sonra başka bir şeye dönüşür.
Burada inceleyeceğimiz şey, yapılandırılmamış veriler için depolama altyapısına yönelik temel gereksinimlerdir. Bunlar:
- Hacim: Genellikle çok sayıda yapılandırılmamış veri vardır, bu nedenle kapasite önemli bir gereksinimdir.
- Dosya ve/veya nesne depolama: Blok depolama, veritabanları içindir ve gördüğümüz gibi, yapılandırılmamış veri kullanım durumları için bir gereklilik değildir. Dosya tabanlı (NAS) ve nesne depolama ihtiyacını karşılar.
- Performans: Tarihsel olarak bu gündemde olmazdı, ancak gerçek zamana daha yakın analitik ihtiyacı ve siber saldırıdan hızlı bir şekilde kurtulma ihtiyacıyla, artık daha çok dikkate alınıyor.
Bulut ve yapılandırılmamış veriler
Bu gereksinimler göz önünde bulundurulduğunda, bulut depolama, yapılandırılmamış verileri depolamak için bir site olarak faturaya uygun görünmektedir. Bununla birlikte, potansiyel olarak buna karşı çalışan birkaç şey var.
Bulut depolama, nesne (hacim açısından ezici bir şekilde) ve dosya erişimi depolaması sağlar, bu nedenle bu açıdan potansiyel olarak uygundur.
Bulut depolama aynı zamanda kapasite sağlayabilir ve verilerin bulutta son derece uygun maliyetli bir şekilde büyük bir hacimde depolanabileceği pekala olabilir. Ancak genellikle yalnızca verilere erişilmediğinde maliyetlerin çok düşük tutulabileceği bir durumdur, bu nedenle bulut depolamanın ilk potansiyel dezavantajı budur.
Bu nedenle bulut, soğuk veriler için çok iyidir, ancak her türlü G/Ç maliyetleri artırmaya başlar. Ancak bu, iş yükünüzün boyutuna ve erişim gereksinimlerine bağlı olarak kabul edilebilir. Küçük veri kümeleri veya seyrek erişim gerektirenler ideal olacaktır.
Yerinde nesne ve dosya depolama
Kümelenmiş NAS ve nesne depolama, çok büyük hacimli yapılandırılmamış veriler için çok uygundur. Hatta nesne depolama, üstün ölçeklendirme yeteneği nedeniyle büyük miktarda veri için daha da uygundur.
Dosya tabanlı depolama, bir dosya sistemine ve ağaç benzeri bir hiyerarşik yapıya dayanır. Bu, dosya sisteminde gezinirken performans ek yüklerine yol açabilir. Nesne depolama, aksine, erişimi kolaylaştıran benzersiz bir kimliğe sahip nesneler/dosyalar içeren düz bir yapıya dayanır.
Yerinde depolama, verilerin güvenliği ve kullanılabilirliği ile ilgili endişeleri giderebilir ve potansiyel olarak verileri buluta yerleştirmekten daha az maliyetli olabilir.
Her iki protokol seti de – dosya ve nesne – yapılandırılmamış veri depolaması için çok uygundur.
Hızlı erişim için flaş ekleyin
Dönen diski kullanarak yerinde yeterli performans gösteren dosya ve nesne depolaması oluşturmak oldukça mümkündür. İhtiyaç duyulan kapasitelerde, HDD genellikle en ekonomik seçenektir.
Ancak flaş üretimindeki ilerlemeler, yüksek kapasiteli katı hal depolamanın kullanılabilir hale gelmesine yol açtı ve depolama dizisi oluşturucuları, bunu dosya ve nesne depolama özellikli donanımlarda kullanmaya başladı.
Bu, QLC – dört seviyeli hücre – flaştır. Bu, daha yüksek depolama yoğunluğu ve dolayısıyla şu anda ticari olarak kullanılabilen diğer tüm flaşlardan daha düşük GB başına maliyet sağlamak için flaş hücrelerine dört düzeyde ikili anahtar içerir.
Bununla birlikte, QLC ile gelen takaslar, flaş ömrünün tehlikeye girebilmesidir, bu nedenle büyük kapasiteli, daha az sıklıkla erişilen veriler için daha uygundur.
Ancak flaşın hızı, hızlı işlemenin ve dolayısıyla G/Ç’nin gerekli olduğu analitikler gibi yapılandırılmamış kullanım durumları için ve müşterilerin bir fidye yazılımı saldırısı durumunda yedeklerden büyük veri kümelerini geri yüklemek isteyebilecekleri durumlar için özellikle uygundur. Örneğin.
Dosyaya ve bazı durumlarda nesne depolamaya uygun QLC tabanlı diziler satan depolama donanımı sağlayıcıları şunları içerir:
EMC’nin Isilon ölçeklenebilir NAS’ını (kısmen) yeniden adlandırılmış ve S3 nesne depolama erişimi içeren PowerScale özellikli Dell EMC. Tamamen flaş (aynı zamanda hibrit flaşa da sahiptir) NVMe QLC flaş donanımlı seçenekleri, onlarca PB’ye ölçeklenen çeşitli kapasitelerde gelir.
Kısa bir süre önce yeni bir QLC flash depolama dizisi ailesi olan C serisini piyasaya süren NetApp, SSD hızına da ihtiyaç duyan daha yüksek kapasiteli kullanım durumlarını hedefliyordu. C serisi, sırasıyla 35PB, 71PB ve 106PB’ye ölçeklenen üç seçenekle (C250, C400 ve C800) başlar. Nesne depolama erişimi, NetApp’ın Ontap OS aracılığıyla protokol kullanılarak mümkündür ancak sınırlıdır.
FlashArray//C ile Saf Depolama, PB aralığında kapasitelere sahip //C40 ve //C60 olmak üzere iki modelde tamamen QLC NVMe bağlantılı flaş sağlar. Bu arada, Pure’un FlashBlade//S ailesi, iki modeldeki tescilli modüllerinde NVMe QLC ile açıkça “hızlı dosya ve nesne” olarak pazarlanmaktadır. S200, veri azaltma ile kapasiteyi vurgularken, S500 performans için geçerlidir.