3 Temmuz 2016 - Yorum Yazılmamış!

Büyük Veri (Big Data) Nedir? Büyük Veri Madenciliği

Bilişim dünyası yapısı gereği hızla değişmekte ve bu değişim de yeni yapıları gündeme getirmektedir. Günümüzde, küresel çapta dönen verinin büyüklüğünün petabyte (250 byte), exabyte (260 byte) ve zetabyte (270 byte) boyutlarına ulaşmasıyla otoriteler, bu durumu tanımlamak için Büyük Veri (Big Data) terimini kullanmaya başlamıştır.

Büyük veri; algılayıcılar ve araçlar tarafından oluşturulan, büyük hacimli, çeşidi bol ve hızla gelen veriyi; toplama, saklama, temizleme, görselleştirme, analiz etme ve anlamlandırma işlemlerinin gerçekleştirilmesidir. Mevcut veri tabanı yönetimi araçları veya geleneksel veri işleme uygulamaları kullanılarak işlenmesi zor olan, çok geniş ve karmaşık veri setlerinden oluşması; verinin elde edilme, iyileştirilme, depolama, arama, paylaşma, transfer, analiz ve görselleştirme aşamalarında zorlukların ortaya çıkmasına sebep olmaktadır.

Büyük verinin güncel hayattaki yerini daha iyi kavramak için bazı istatistiksel bilgiler, aşağıda belirtilmiştir.

1. Dünyadaki bütün verinin %90’ı son iki yılda oluşturulmuştur.
2. Dünya nüfusunun %40’ına denk gelen 2,923 milyon internet kullanıcısı bulunmaktadır. Online popülasyonun da %73,4’ü internete mobil telefonlarından erişmektedir.
3. 10,2 milyar dolar pazar hacmine sahip büyük verinin değerinin, 2017’de 53,4 milyar dolar olacağı tahmin edilmektedir.
4. Dijital dünyanın %70’i olan 900 exabyte veri kullanıcılar tarafından oluşturulmaktadır.
5. Firmalar, tüm verilerinin %80’ini saklamaktadırlar.
6. 2020 yılında verilerin üçte birinin bulutta saklanacağı öngörülmektedir.
7. Beyaz Saray, büyük veri projeleri için 200 milyon dolar yatırım yapmaktadır.
8. Veriye erişimin %10 artması Fortune 1000 şirketlerine 65,7 milyon dolar ek net gelir getirmektedir.
9. 2013’de 2.712.239.573 internet kullanıcısı, Google’da yaklaşık olarak 1,2 trilyon arama yapmıştır.
10. Günün her dakikasında 570’in üzerinde yeni web sitesi kurulmaktadır.
11. Her ay YouTube’u 1 milyar özgün kullanıcı ziyaret etmekte ve 6 milyar saatin üzerinde video izlemektedirler.
12. Aylık 271 milyon aktif kullanıcıya sahip olan Twitter’da günde 500 milyon tweet atılmaktadır.
13. Facebook’un 1,07 milyarı mobil olmak üzere 1,32 milyar aktif aylık kullanıcısı bulunmaktadır.
14. 200 milyon aktif aylık kullanıcısı olan Instagram’da günde 60 milyon fotoğraf paylaşılmaktadır.
15. LinkedIn, 200’ün üzerinde ülkeden 300 milyondan fazla üyeyi ve 3 milyondan fazla firmayı barındırmaktadır.

Verilerin özellikle son iki yılda bu kadar ciddi boyutlara ulaşmasının ardından popülerlik kazanan büyük veri olgusunun, ilk ve en önemli uygulayıcılarından olan Google’ın, kullanıcıları tarafından sorgulanan anahtar kelimelerin hangi coğrafyalarda hangi zamanlarda ve ne sıklıkta arandığını gösteren Trends platformuna göre büyük veriye ait arama hacimleri aşağıdaki resimlerde gösterilmiştir. Sonuçlara göre, konuya gösterilen ilgi 2011’den sonra çok hızlı bir şekilde artmıştır. Küresel çapta çok ilgi gösteren ülke Hindistan ve Singapur olurken, Türkiye’den en fazla istek İstanbul ve Ankara şehirlerinden gerçekleştirilmiştir. Konunun Türkiye için çok yeni olduğu arama sonuçlarından da görülebilmektedir.

Büyük veri; verilerin dijitalleşmesi ve farklı boyutlarda alınan verilerin toplanıp, düzenlenmesiyle insan davranışlarını anlama, tahminler yapma ve işletmelerin sahip olduğu verilerden yola çıkarak akıllı yönetim imkânı sağlamaktadır. Firmalara bu süreçlerin sağlayabileceği faydalar 5 maddede özetlenebilir:

Büyük Verinin Firmalara Sağladığı 5 Fayda

  1. Şirketler, dijital formatta daha fazla veri oluşturup, depolayarak ürün hakkında daha doğru ve ayrıntılı bilgi toplayabilir ve bu bilgileri performans artırıcı eylemlerde kullanma olanağına erişir.
  2. Büyük veri, dar segmentasyondaki müşterilere özel ürün veya hizmetleri sunma imkânı verir.
  3. Büyük verinin iyi analiz edilmesi derin ve karmaşık bilgiyi daha anlamlı hale getirerek, karar alma sürecinde markalara ciddi bir kolaylık sağlar.
  4. Firmalar bu veriyi kullanarak, geliştireceği bir sonraki ürün veya hizmet hakkında fikir sahibi olabilir.
  5. Daha önceden bilinmeyen, düşünülemeyen veya görülemeyen pek çok yeni bilginin elde edilmesine olanak sağlar.

Büyük Veri Kelimesi Google Aranma Hacmi

Yukarıda görebileceğiniz gibi uygulama süreci gösterilen büyük verinin, büyük imkanlarından yararlanmak isteyen sektörler, aşağıdaki uygulamalar sayesinde zaman ve maliyetten kazanarak, kurumsal olarak daha isabetli stratejiler belirlemektedirler.

1. İşletme: Müşteri kişiselleştirme, müşteri kaybı sebeplerini belirleme, dağıtım ve lojistik optimizasyonu

2. Teknoloji: İşlem süresini azaltma, gerçek zamanlı analiz, kriz dönemlerinde hızlı cevap üretme, riskleri azaltmak için otomatik sistemler ile karar verme

3. Sağlık: Hastalık tespiti, seyrinin takibi ve sağlığı güçlendirmek için kişisel DNA analizi yapma

4. Kamu Sektörü: Verilere erişilebilirlik sağlayarak şeffaflık oluşturma, uygun ürün ve hizmetler için eylemlerin uyarlanması

5. Perakende Satış: Mağaza davranış analizi, çeşitlilik ve fiyat optimizasyonu, ürün yerleştirme tasarımı, performansı geliştirme, işçi geliri optimizasyonu

6. Kişisel Konum Verileri: Akıllı yönlendirme, coğrafi hedefli reklamcılık, acil müdahale

7. Akıllı Şehirler: Doğal kaynakların yönetilerek, sürdürülebilir ekonomik gelişmenin ve yüksek kaliteli yaşamın sağlanması

Büyük Veri Uygulamaları Örnekleri

Belirli karakteristik özellikler dâhilinde verinin sınıflandırılması, uygun büyük veri örüntüleriyle eşleşmesinde kolaylık sağlamaktadır. Çizelge 3.1’de betimlenen anahtar kategorilerin kombinasyonu ile veriye erişimden tüketim sürecine kadarki bütün aşamalar belirlenmiş olur.

Büyük Verinin Sınıflandırılması

Büyük Veri Sınıflandırılması

Büyük Veri Sınıflandırılmasını içeren tabloyu inceleyebilirsiniz.

Büyük Veri Bileşenleri

Büyük veriyi anlamak için onun oluşumundaki beş bileşeni incelemek önemlidir. Bunlar; aşağıdaki resimde görüldüğü gibi, kısaca 5V (volume, velocity, variety, verification, value) olarak adlandırılabilir.

Büyük Veri Bileşenleri

1. Miktar (Volume): Veri büyüklüğü artık, terabyte ve petabytedan daha büyük hale geldiğinden, depolama ve analiz süreçleri için geleneksel yaklaşımlar yetersiz kalmaktadır.

2. Hız (Velocity): Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.

3. Çeşitlilik (Variety): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni teknoloji, farklı formatlarda veri üretmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen çeşitli veri tipi ile uğraşılması ve birbirlerine dönüşmeleri gerekmektedir.

4. Doğrulama (Verification): Bu bilgi yoğunluğu içinde verinin akışı sırasında güvenli olması da bir diğer bileşendir. Akış sırasında, doğru katmandan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekmektedir.

5. Değer (Value): Büyük verinin veri üretim ve işleme katmanlarından sonra kurum içinbir artı değer yaratıyor olması, karar veriş süreçlerine anlık olarak etki etmesi, doğru kararı vermede hemen el altında olması gerekmektedir.

Büyük Veri Madenciliği

Veri, donanım, bilgisayar ağları, bilimsel hesaplamalar ve ticari eğilimlerin gelişmesi, otomatikman veri madenciliğinin gelişme sürecini etkilemektedir. Ağ oluşturma, veri saklama ve veri toplama kapasitesinin hızla yükselmesi sayesinde; bilim ve ticaret sektöründeki büyük veri madenciliği uygulamaları da süratle artmaktadır.

Büyük veri teknikleri; istatistik, veri madenciliği, makine öğrenmesi, optimizasyon teknikleri, sosyal ağ analizi, sinyal işleme, örüntü tanıma ve görselleştirme yaklaşımları gibi birçok disiplini kapsamaktadır.

Büyük verinin analiz edilerek anlamlandırılması sürecinde; büyük hacim, karmaşıklık, veri setinin birçok boyutta genişlemesi, verinin otonom kaynaklardan toplanması ve dağıtık olarak kontrol edilmesi gibi karakteristik özelliklerinden ötürü zorluklar ortaya çıkmaktadır. Büyük veri madenciliğinde karşılaşılan sorunlar aşağıda özetlenmiştir:

1. Veri madenciliği tekniklerinin uygulanarak analizin gerçekleştirilmesi sürecinde, klasik alt yapının aksine büyük veri; yüksek performanslı hesaplama yapabilen bilgisayar kümelerine, MapReduce veya ECL gibi birçok düğüm üzerinde paralel programlama yapabilen araçlara ve bu koordinasyonları sağlayacak yazılımlara ihtiyaç duymaktadır.

2. Global optimuma ulaşmak için sistem, bütün dağıtık kaynaklar arasında bilgi değişimi ve birleştirme mekanizmalarını sağlamak zorundadır. Veri işleme, model oluşturma ve bilgi çıkarımı aşamalarında analiz, her bir farklı birimde lokal olarak gerçekleştirilir ve birimler arasında takas edilerek, global korelasyon sağlanır.

3. Karmaşıklığı artan sırada verilen; anahtar-değer ambarı, geniş sütun ambarı, doküman veritabanı ve graf veritabanı gibi geleneksel veri modellerinin aksine, büyük veri ile başa çıkabilecek etkili ve verimli bir model yoktur. 4. Dev boyutlara ulaşan veri, fiziksel olarak farklı lokasyonlara dağıtılmış halde olduğundan analiz sürecinde bulut bilişim servislerinin veya veri madencisi gibi üçüncü partilerin kullanılması gizlilik ihlallerine sebebiyet vermektedir.

5. Geleneksel tekniklerin, birçok kaynaktan akan ve dinamik olarak artan heterojen veride yetersiz kalması, uygulanan madencilik tekniklerinin özelleştirilerek sisteme adapte edilmesini, daha verimli ve hızlı çalışan bilgi çıkarımı algoritmalarının geliştirilmesini zorunlu kılmaktadır.

6. Verinin boyutu, kalitesiyle eşdeğer olmadığı için gürültüsüz, tekrarsız, çelişmeyen doğru verilerin analiziyle doğru sonuçlar elde edilmektedir.

7. Kişinin haberi olmaksızın veya kanun ve politika açıkları kullanılarak yapılan kişisel verilerin bireysel profil oluşturmada kullanılması, etik problemlere de yol açmaktadır.

Veri Bilimi

Günümüzde veri, istatistik biliminin ele alabildiği kapsamın dışına taşmaya başlamıştır. Dağınık, düzensiz ve kaotik yapıdaki bu veriden anlam çıkarılarak büyük resmin görülmesini sağlayan büyük veri analizi sürecinde yeni bir branş olarak veri bilimi ortaya çıkmıştır. Veri bilimi; bilgisayar programlama, matematik, istatistik, işletme ve bilimsel araştırma gibi çeşitli kaynaklardan beslenmektedir. Bu bilimlerle olan benzerlik ve farklılıkları aşağıdaki görselde verilmiştir.

Veri bilimci ise; teknik uzmanlık, merak, girişimcilik, hikaye anlatma yeteneği ve problemlere farklı açıdan bakabilme yeteneğine sahip olan kişilerdir. Disiplinler arası bir yaklaşımla verinin toplanmasından, temizlenmesi, düzenlenmesi ve sonuçların elde edilmesine kadar problemin bütün yönleriyle uğraşarak soruna yeni bir bakış açısı geliştirirler.

Veri Bilimi Madenciliği

Büyük Veri Teknik ve Teknolojileri

Kuruluşlar, ortakları, müşterileri ve bilim insanları açısından büyük veriden faydalanılması; geniş çapta, çeşitlilikte ve hızla artan veriden zeki ve sezgisel ürünlerin elde edilmesi ile sağlanmaktadır. 2013 yılında analiz edilebilen veri miktarı 750 exabyte iken, 2020 yılında 13,000 exabyte olacağı tahmin edilmektedir. Büyük verinin üstesinden gelirken, depolama ve hesaplama süreçleri klasik yöntemlere göre farklılık göstermektedir. Değerli bilgilerin keşfedilmesi için gereken teknik ve teknolojiler disiplinler arası metotları ve yeni yaklaşımları kapsaması gerekmektedir. Büyük veri analitiğinde kullanılan araçlar aşağıda sınırlandırılmıştır.

Büyük Veri Madenciliği Araçları

Analitik görselleştirme, verinin altında yatan detaylara erişerek hedef kitleye cevapları sunar. Veri madenciliği, gizli örüntüleri ortaya çıkarır. Tahminsel analiz, görselleştirme ve madencilik algoritmaları ve araçları sayesinde öngörülerde bulunmayı sağlar. Anlamsal analiz, yapısal olmayan verinin çözümleme, özünü elde etme ve analiz süreçlerini kapsamaktadır. Veri kalitesi ve veri yönetimi ise, kalite ve yönetim süreçlerinin tanımlandığı denetim uygulamaları ve kurumsal işlemleri içeren teknolojik araçlarla yapılır.

Yukardaki görselde kategorileştirildiği gibi büyük veri araçları genellikle açık kaynaklı olmakla beraber, dağıtık dosya sistemleri, paralel hesaplama algoritmaları veya NoSQL (Not Only SQL) veri tabanları kullanmaktadırlar.

Veri Madenciliği Araçları

Büyük veri olgusunun gelişimi kronolojik olarak incelendiğinde, görseller incelediğinde Veri İşleme kısmında görüleceği gibi, süreç MapReduce ile başlamıştır. MapReduce, Google tarafından geliştirilmiş, birbirine bağlı ve birlikte çalışan bilgisayar grubunun büyük veri kümeleri üzerinde dağıtık programlamayı destekleyen bir yazılım kütüphanesidir.  Süreçler basitçe ifade edilecek olursa, map aşamasında analiz edilen veri içerisinden almak istenen veriler çekilir, reduce aşamasında ise bu çekilen veri üzerinde istenilen map aşamasında ana düğüm (master node) problem veriyi alıp ufak parçalara ayırarak işçi düğümlere (worker node) dağıtır. İşçi düğümler bu işleri tamamladıkça sonucunu ana düğüme geri gönderir. Reduce aşamasında ise tamamlanan işler işin mantığına göre birleştirilerek sonuç verisi elde edilir. Map aşamasındaki işlemler birbirinden bağımsız olarak gerçekleşebildiği için paralel olarak çalışabilir.

Bu sayede büyük miktardaki veri, küme içerisindeki düğümler tarafından hızlı bir şekilde okunabilir. reduce aşamasında ise aynı anahtara sahip veriler paralel olarak işlenebilir.

BigQuery, Google'ın 2012'de başlattığı bulut bilişim hizmetlerinden biridir. Verinin içeri veya dışarı aktarılması, SQL benzeri sorguların çalıştırılması ve diğer kullanıcı ve yönetim görevlerinin gerçekleştirilmesini sağlayan bir grafik web ara yüzünden oluşmaktadır. BigQuery, Google'ın çekirdek altyapılarından olan, bulut destekli paralel sorgu servisi, Dremel'i kullanmaktadır. Dremel, MapReduce'e nazaran, veri kümesi sorgu işlemlerini daha kısa zamanda gerçekleştirme ve programlamacı olmayan kişiler tarafından bile kullanılabilecek basitlikte geliştirilmiştir. Dremel büyük veri setleri için etkileşimli bir veri analizi aracı olarak tasarlanmıştır. Benzer gibi görünen MapReduce ise, büyük veri setleri üzerinde toplu işlem gerçekleştiren bir programlama çerçevesidir.

Hadoop, sıradan sunuculardan oluşan küme üzerinde büyük verileri işlemek amaçlı uygulamaları çalıştıran ve HDFS (Hadoop Distributed File System) olarak adlandırılan bir dağıtık dosya sistemi ile Hadoop MapReduce özelliklerini bir araya getiren, Java ile geliştirilmiş açık kaynaklı bir yazılımdır. HDFS sunucuların disklerini bir araya gelerek büyük, tek bir sanal disk oluşturulur. HDFS, NameNode ve DataNode süreçlerinden oluşmaktadır. NameNode master süreç olarak blokların sunucular üzerindeki dağılımından, oluşturulmasından, silinmesinden, bir blokta sorun meydana geldiğinde yeniden oluşturulmasından ve her türlü dosya erişiminden sorumludur. DataNode ise işlevi blokları saklamak olan slave süreçtir. Her DataNode kendi yerel diskindeki veriden sorumludur. Ayrıca diğer DataNode’lardaki verilerin yedeklerini de barındırır. Hadoop MapReduce ise HDFS üzerindeki büyük dosyaları verileri işleyebilmek amacıyla kullanılan bir yöntemdir. İstediğiniz verileri filtrelemek için kullanılan Map fonksiyonu ve bu verilerden sonuç elde etmenizi sağlayan Reduce fonksiyonlarından oluşan program yazıldıktan sonra Hadoop üzerinde çalıştırılır. Hadoop Map ve Reduce’lerden oluşan iş parçacıklarını küme üzerinde dağıtarak aynı anda işlenmesini ve bu işler sonucunda oluşan verilerin tekrar bir araya getirilmesinden sorumludur.

Düşük maliyet ile yüksek derecede ölçeklenebilirlik sağlayan Hadoop projesi geleceğin veri işleme platformu olarak adlandırılmakta ve aşağıda bir kısmı belirtilen birçok büyük firma tarafından desteklenmektedir:

  1. Amazon: Amazon Elastic MapReduce altyapısının sağladığı esneklik sayesinde Hadoop kullanmaya yeni başlayacaklar ya da ihtiyaçları anlık olarak değişebilecek
  2. Cloudera: Açık kaynaklı olan projeyi kurumsal altyapılara uygun hale getirmeye odaklanmıştır.
  3. EMC: EMC Greenplum HD ürünü ile tek bir yazılım platformu üzerinde ilişkisel veritabanı sistemini ve Hadoop’un gücünü birleştirmektedir.
  4. Hortonworks: Yahoo tarafından kurulmuş, Hadoop’un açık kaynaklı gelişmesine odaklanmış, bağımsız bir firmadır.
  5. Hadapt: Apache Hive projesinde olduğu gibi SQL arayüzünü kullanarak ilişkisel veritabanı ve Hadoop sistemini bulut ortamında birleştirmektedir.
  6. IBM: InfoSphere BigInsights ürününde Apache Hadoop sistemini Apache Pig analiz dili ile beraber DB2 veri tabanı desteğini bir araya getiriyor.
  7. Microsoft: Azure bulut sistemlerine beta olarak Hadoop’u dâhil etmiştir.
  8. Oracle: büyük veri işleme konusunda kendisine en iyi alternatif olan Hadoop projesini kendi ürünleri ile çok iyi şekilde entegre ederek bunu bir avantaja dönüştürmektedir.

HPCC (High Performance Computing Cluster) platformu, büyük veriden faydalanmak için, verileri sıradan hesaplama kümeleri üzerinde paralel olarak işleyerek yüksek performans sağlayan bir yazılımdır. HPCC 3 ana bileşene sahiptir.

1. Thor (Veri Rafinerisi): Ham verinin temizlenmesi, entegrasyonu ve toplu iş odaklı veri işleme sağlayan büyük ölçekte paralel ETL (Extract, Transform, Load) motorudur.

2. Roxie (Veri Dağıtım Motoru): Verileri paralel olarak işleyen, çevrimiçi, yüksek performanslı yapısal sorgulama ve analiz platformu.

3. ECL (Enterprise Control Language): Düğümler arasında iş yükünü otomatik dağıtan, büyük veri sorgu işlemleri için optimize edilmiş, kullanımı basit bir programlama dildir.

Hadoop ve HPCC'nin özelliklerinin karşılaştırılması

1. HPCC kümeleri Thor ve Roxie kullanılarak, Hadoop kümeleri MapReduce işleme ile çalıştırılır.

2. HPCC ECL, Hadoop Java programlama dilini kullanır.

3. Hadoop'un aksine HPCC veri modeli kullanıcı tarafından tanımlanır.

4. HPCC Community Edition ücretsizdir, Enterprise License sistemin türüne ve boyutuna göre değişir. Hadoop ücretsizdir, farklı satıcılar tarafından desteklenen türlerinden bakım ücreti alınmaktadır.

5. Yapısal sorgu ve analiz gibi veri ambarı yeteneklerini HPCC'de Roxie, Hadoop'da Hive sağlar.

6. Dağıtım, HPCC'de çevresel kofigürasyon araçlarıyla sağlanırken, Hadoop da bu işlemler 3. parti uygulamalar kullanılarak gerçekleştirilir.

7. HPCC platformu dağıtık dosya sistemi dosyaları üzerinde çok anahtarlı, çok değişkenli dizinler oluşturabilirken, HBase olarak adlandırılan Hadoop için bir eklenti sistemi anahtarlı erişim ile sütun odaklı veri tabanı yeteneği sağlar.

8. HPCC yapılandırmaları, aynı işlem performansı için Hadoop kümesinden daha az düğüme gerek duyar.

9. Aynı donanıma sahip 400 düğümlü sistemde, HPCC işlemleri 6.27 dakikada, Hadoop 25.28 dakikada gerçekleştirmiştir.

IBM’in büyük veri platformu, çekirdeğe entegre edilebilen esnek ve çevik bileşenlerden oluştuğu için projenin başarısını artırmak ve teslimatı hızlandırmak gibi birçok fayda sağlamaktadır [50]. Depolama, veri iletimi, analiz ve tüketim katmanlarında; InfoSphere Data Explorer, InfoSphere BigInsights, InfoSphere Streams, SPSS Modeller ve SPSS Statistics araçları kullanılır.

1. InfoSphere Data Explorer: Gerçek zamanlı erişim ve farklı uygulamalardaki farklı verileri birleştirme yeteneğiyle daha fazla öngörü ve yatırım getirisi sağlar.

2. InfoSphere BigInsights: Büyük hacimli yapısal ve yapısal olmayan verinin; metin analizi, görselleştirme, performans, güvenlik ve yönetimsel özellikler ile yönetimini ve analizini yapan Apache Hadoop tabanlı sistemdir.

3. InfoSphere Streams: Kısa zaman içerisinde, büyük boyutta akan verinin sürekli analizini sağlayarak karar destek sürecini geliştiren ve olaylara gerçek zamanlı müdahale eden yazılımdır.

4. Netezza: Gelişmiş analizler ve derin anlayışlar sunmak için geliştirilmiş belirli amaçlara göre kurulabilen yüksek performanslı veri ambarı cihazıdır.

Büyük veri kavramının kısa bir zaman içerisinde yoğun bir ilgi görmesinin ardından; Apache, Google, Amazon, IBM, Oracle, SAP, Apple ve Microsoft gibi büyük firmaların öncülüğünde değişken ihtiyaçlara çözüm üreten, farklı yeteneklere sahip araçlar bu pazarda yer almaya başlamıştır. Mevcut araçlar; toplu işlem araçları, akış işleme araçları ve interaktif analiz araçları olarak üç sınıfta incelenebilir. Büyük oranda Hadoop temelli olan açık kaynaklı veya ticari bazı platformlara ait bilgiler aşağıda özetlenmiştir.

Toplu Veri İşleme Araçları

İlginizi çekebilecek ilgili içerik: Veri Madenciliği Nedir? Veri Madenciliği modelleri hakkında detaylı bilgiye buradan ulaşabilirsiniz.

 

 

 

Leave a Reply