Yapılandırılmamış verilerden yapı nasıl elde edilir

IDC’ye göre, yapılandırılmamış bir veri devriminin ortasındayız ve verilerin %80’i 2025 yılına kadar yapılandırılmamış olacak. Gelişmiş analitiğin ve özellikle yapay zeka/makine öğreniminin (AI/ML) yükselişi, kuruluşlar tarafından büyük hacimlerde tutulan daha önce opak olmayan serbest metin, resimler, ses kayıtları vb.

Elbette, herhangi bir dosyaya eşlik eden meta verilerde bazı yapılar mevcuttur. Ancak AI/ML işlemeyle, bir veri kümesinden ek yapılandırılmış veri alanları türetilebilir.

Bu nedenle, örneğin bir kuruluş, AI/ML’yi bir dizi apartman kiralama reklam görseline karşı çalıştırabilir ve görsel kalıpları tıklama sayısıyla eşleştirmeye çalışabilir. Bu, analiz için mevcut verilerle birleştirilebilen yapılandırılmış alanlar oluşturmak ve nihayetinde editoryal karar vermeyi yönlendirmek için yapılandırılmamış görüntü verilerinin analizini gerektirir.

Bu makalede, S3 Select ve Snowflake ve MongoDB gibi veritabanı benzeri ürünler tarafından yapılandırılmış veya yapılandırılmış gibi yapılandırılmamış verilere erişilmesinin bazı yollarına bakacağız.

SQL, yapılandırılmış özet

Öncelikle, yapılandırılmış verinin, tablo tabanlı bir şema ile yapılandırılmış ve satır ve sütunlarda tutulan verilerle yapılandırılmış SQL veritabanlarının kullanımına dayandığını kendimize hatırlatmalıyız.

Bu önceden ayarlanmış biçim, işlem bütünlüğü açısından büyük bir güvenlikle verilerin son derece hızlı sorgulanmasına olanak tanır. Bu nedenle, SQL veritabanları hala kullanımda olan en performanslı ve görev açısından kritik uygulamaların merkezinde yer alıyor.

Verilerin yapılandırılmış bir formatta var olması için, büyük olasılıkla makineler tarafından bu şekilde veya oldukça katı ve makineye bağımlı süreçlerde insanların yardımıyla oluşturulmuş olacaktır.

Burada, yapılandırılmamış verilerin analize yönelik daha yapılandırılmış yaklaşımlara izin veren ortamlara nasıl dahil edildiğine bakıyoruz.

S3 Select – S3, SQL ile buluşuyor

Nesne depolama, belki de olabildiğince yapılandırılmamış. Başlangıç ​​olarak, katı dosya sistemi depolama hiyerarşisinden yoksundur. Her şey, onu bulmak için benzersiz bir tanımlayıcı ile düz bir yapıda tutulur. Ve bir nesne hemen hemen her türden veri olabilir.

AWS’den S3 nesne depolaması, nesne depolaması ile içinde bulunduğumuz bulut çağının benzerliğini de gösterir.

Ancak çok büyük nesne depolarından üzerinde çalışmak istediğiniz veri alt kümesini seçmek için SQL sorgu deyimlerini kullanarak S3 verilerini filtrelemek mümkündür. S3 Select sonuçları CSV, JSON ve Apache Parquet biçimlerinde gelebilir ve AWS konsolundan, komut satırından veya uygulama programlama arabirimleri (API)’ler aracılığıyla sorgular gerçekleştirebilirsiniz.

Temel kullanım durumları, daha büyük bir veri kümesini indirmekten kaynaklanabilecek daha yüksek çıkış ücretlerini azaltırken daha hızlı, yerel bilgi işlemde analiz için S3’ten veri seçmek istediğiniz durumlardır.

Ama bu gerçekten bir veritabanı değil. Ve CSV ve JSON gibi formatlarda gelen verilerle, onu tercih ettiğiniz analiz aracına sokmak için biraz kodlamaya ihtiyaç duyacaktır.

Snowflake: Dizin tablolarıyla sipariş ekleme

Snowflake’in yapılandırılmamış verilere yaklaşımı ve ona yapı sağlama yaklaşımı, içindeki öğelere yapı kazandıran analitik ve AI/ML’ye dayanmaktadır. Bu yetenekler, 2022’nin başlarında GA’ya geçti.

Harici bulutlardan (AWS, Azure, GCP) bir Snowflake “aşamasında” veri depolamak için API’leri kullanabilir veya yapılandırılmamış dosyalar içeren kendi S3 klasörünüzü getirip Snowflake’e bağlayabilirsiniz. Ardından, verilere erişmek ve “dizin tablolarını” kullanarak kataloglamak için URL tabanlı Rest API’lerini kullanabilirsiniz.

Dizin tabloları, mümkün olduğunda dosya/nesne meta verileri ve içeriklerinden oluşturulmuş ve yapılandırılmış bir biçimde düzenlenmiş bir dosya kataloğu aracılığıyla verilerin aranmasına, sıralanmasına vb. olanak tanır. Daha sonra etiketler eklemek veya sütunları hesaplamak ve bunları dizin tablosuna birleştirmek mümkündür.

Örneğin Java’daki programlanmış işlevler yoluyla yapılandırılmamış verilerden yapı elde etmek için dosyalara analiz erişimi sağlayabilirsiniz, erişim kontrolü ve paylaşım da mümkündür.

Snowflake’in hedeflediği iş yükleri arasında belgelerin optik karakter tanıması, PDF’lerden veri çıkarılması, dosyaların AI/ML işlenmesi – perakendede imza yakalama ve ürün görüntü analizi ve örnek olarak çağrı merkezi kayıtlarında duyarlılık analitiği yer alır.

Snowflake ayrıca JSON, Avro ve XML gibi yarı yapılandırılmış veri türlerini, iç içe geçmiş biçimleri ilişkisel tablolara düzleştirerek ve ardından SQL kullanarak sorgulayarak ilişkisel verilerin yanı sıra destekleyebilir.

Google BigQuery: AI/ML, nesne tabloları oluşturur

Google’ın BigQuery veri ambarı hizmeti, yapılandırılmamış verilerin Nesne Tabloları işlevi aracılığıyla sorgulanmasına ve yapılandırılmış verilerle birleştirilmesine olanak tanır.

Nesne Tabloları, Google Cloud Storage’da depolanan yapılandırılmamış veriler için yapılandırılmış bir kayıt arayüzü sağlar. Burada yerleşik güvenlik, paylaşım ve yönetişim ile BigQuery’deki SQL ve uzak işlevleri kullanarak görüntüler, ses, belgeler vb. üzerinde analiz ve makine öğrenimi çalıştırabilirsiniz.

BigQuery, ANSI uyumlu standart bir SQL lehçesini destekler. AI/ML’yi yapılandırılmamış verilere uygulamak ve ardından bulgularından yapılandırılmış kayıtlar oluşturmak için Google, son Next etkinliğinde konuşma tanıma, görsel analiz, çeviri ve daha fazlasıyla AI Vision’ı duyurdu.

Microsoft Azure, Azure Synapse tekliflerinde benzer işlevler sunar.

MongoDB

NoSQL veritabanı olarak adlandırılan MongoDB’de metin dosyaları ve diğer yapılandırılmamış varlıklar JSON biçimli belgeler olarak depolanır.

Bu şekilde, ilk kaydetme prosedürü sırasında rijit bir yapı uygulanmaz. Bu, verilere neredeyse hiç dokunulmamasını sağlar, böylece temeldeki JSON’u değiştirmeden müşterinin erişmeyi tercih ettiği yola uyacak şekilde yapılandırılabilir. Bu, mevcut ihtiyaçlardan farklı olabilecek gelecekteki operasyonlar için tamamen mevcut olduğu anlamına gelir.

Görüntüler, ses dosyaları, filmler vb., dosyaları meta verileriyle birlikte MongoDB koleksiyonlarında depolayan GridFS özelliği kullanılarak MongoDB’de saklanabilir.

Read Previous

İşten çıkarmalar – teknoloji şirketleri bunu doğru yapıyor mu?

Read Next

Karmaşık işbirliklerini çözme, maliyetleri ve karmaşıklığı artırma

Leave a Reply

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

organik hit - iş fikirleri -