3 Temmuz 2016 - Yorum Yazılmamış!

Veri Madenciliği Nedir? Veri Madenciliği Modelleri

Veri madenciliği öncesinde bahsedilmesi gereken öncelikle veri kelimesinin tanımıdır. Bilişim teknolojisi açısından veri; bir durum hakkında, birbiriyle bağlantısı henüz keşfedilmemiş varlıklar ya da sayısal ortamlarda bulunan sinyaller veya bit dizeleri olarak tanımlanmaktadır. Bilişim kültürünün temeli veri madenciliğine dayanmaktadır. Verinin belli bir anlam ifade edecek şekilde düzenlenmiş haline bilgi denilirken; aslında bir güç oluşturabilecek veya katma değer sağlayabilecek şekle dönüşmek üzere, daha özenli olarak işlenmiş asıl değerli olan bilgi, özbilgi kavramıyla ifade edilmekte, güvenilir yargı ve karar süreçlerinde özbilginin kullanılmasıyla da ulaşılan son aşama, hikmet olarak adlandırılmaktadır. Veri kavramı, üç başlık altında incelenmektedir.

1.Yapılandırılmış Veri (Structured Data)

Veriler aynı tanımlanmış formatta ve uzunluktadır ve aynı düzeni izleyerek gruplandırılmıştır. Bilgi organizasyonunun satır ve sütunlarla düzenlendiği geleneksel veri tabanı sistemleri bu türden verileri barındırmaktadır.

2.Yapılandırılmamış Veri (Unstructured Data)

Bu biçimdeki veriler herhangi bir format, dizi veya kural izlemezler. Metin, video, ses, görüntü, e-posta, blog ve web sayfaları yapılandırılmamıştır. Bu veriler içerikleri yenilendiğinde dinamik, düzenlenmeye müsait olmayanları ise statik olarak sınıflandırılabilir.

3.Yarı Yapılandırılmış Veri (Semi Structured Data)

Semantik çokluklar organize edilerek benzerlikleri tamamen denk olmasa da gruplandırılmasıdır. Web verileri, e-posta ve XML dokümanları örnek olarak verilebilir.

Veri madenciliği; veri ambarlarında tutulan, büyük miktarda ve çeşitli verinin analiz edilerek daha önce keşfedilmemiş bilgileri ortaya çıkarmak, bunları karar vermede ve gelecekle ilgili tahmin yapmada kullanma sürecidir. Etkin bir veri madenciliği uygulaması için, farklı tiplerdeki ve ortamdaki verileri kullanma; analiz algoritmasının başarısı ve verimliliği; sonuçların kesinlik ve anlamlılık ölçütlerini sağlaması; keşfedilen kuralların görselleştirilmesi; son olarak da gizlilik ve veri güvenliği şartlarının sağlanması gerekmektedir.

 

Veri madenciliği aşağıda belirtildiği gibi pek çok alanda uygulanabilmektedir:

  • Bankacılık: Kredi taleplerinin değerlendirilmesi, risk analizleri, usulsüzlük tespiti
  • Bilim ve Mühendislik: Bilimsel ve teknik problemlerin çözümlenmesi
  • Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri
  • CRM/Müşteri Analitiği: Müşteri memnuniyetinin artırılması, yeni müşterilerin kazanılması, değerli müşterilerin elde tutulması, davranış analizi 
  • Elektronik Ticaret: Müşteri ilişkileri yönetimi, saldırıların çözümlenmesi  Endüstri: Kalite kontrol, üretim süreci kontr
  • Pazarlama: Çapraz satış analizleri, müşteri değerlendirme, pazar sepeti analizi 
  • Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi  Telekomünikasyon: Müşteri bölünmeleri, hile tespiti, hatların yoğunluk tahminleri
  • Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi

Veri madenciliği, veri setlerinden özbilginin keşfedilmesi sürecinin temel adımıdır. Bu sürecin verimli olarak gerçekleştirilmesi için, boyutu ve karmaşıklığı hızla artan verilerin mantıksal ve istatistiksel analiz sürecini kolaylaştırmak adına; R, Weka, IBM SPSS, Matlab, SAS, RapidMiner, Orange ve KNIME gibi birçok ticari veya açık kaynaklı araç kullanılmaktadır [29,30]. Verinin hazırlanmasını ve analizini sağlayan bu araçlar, çeşitli kütüphaneler ve eklentiler sayesinde; büyük veri, paralelizasyon, graf madenciliği, akan veri analizi, zamansal ve mekânsal verilerin işlenmesi gibi ekstra yeteneklere sahip olabilmektedirler.

Veri Madenciliği Modelleri

Veri madenciliği teknikleri, veri yapısı ve kullanım amacına bağlı olarak farklılaşmakta ve temel olarak iki ana grupta toplanmaktadır.

1. Tanımlayıcı (Descriptive) Model: Veri tabanını sorgularıyla, veri ilişkilerini ve modellerini bulmayı amaçlamaktadır.

2. Tahmin Edici (Predictive) Model: Verilerden elde edilen desenler yardımıyla, gelecekteki değerleri öngörür.

Veri madenciliği modelleri işlevlerine göre sınıflandırma ve regresyon (classification and regression), kümeleme (clustering) ve birliktelik kuralları (association rules) olmak üzere 3 ana başlık altında incelenmektedir.

Sınıflandırma ve Regresyon

Herhangi bir konunun, olayın ya da değerin önceden belirlenen çıktılara göre ayrıştırılması ya da bir nesnenin eksik kalan sınıf özelliğine hangi değerin geleceğinin tahmin edilmesi için kullanılır. Çıktılar, önceden bilindiği için, veri kümesini denetimli (supervised) olarak öğrenir. Sınıflandırma kategorik, regresyon süreklilik gösteren veriler üzerinde uygulanırken; yaygın olarak kullanılan regresyon modellerinden doğrusal regresyonda hedef değişkenin değeri, lojistik regresyonda ise alabileceği değerlerden birinin gerçekleşme olasılığı belirlenmektedir. Karar ağaçları (decision trees), yapay sinir ağları (artificial neural networks), genetik algoritmalar (genetic algorithms), k-en yakın komşu (k-nearest neighbor), destek vektör makineleri (support vector machine), Naive Bayes, diskriminant analizi ve regresyon analizi teknikleri örnek olarak verilebilir.

Kümeleme

Bir dizi örüntüyü, homojen ve ayrık guruplar oluşturacak şekilde ayrıştırma işlemidir [28]. Sınıflandırmadan farklı olarak, kayıtların hangi sınıfa ait oldukları önceden tanımlanmaz. Merkezi kümeleme (centroid) yöntemi, k-ortalamalar algoritması, kohonen ağları kümeleme tekniklerinden bir kaçıdır.

Birliktelik kuralları

Veri kümesi içindeki ilginç ilişkileri, sık örüntüleri bulmak için; eş zamanlı oluşum, olay ve durumların tespitini, birlikte olma olasılıklarını ve bunların şartlarını ortaya koyan modeldir. AIS, apriori, eclat, direct hashing and pruning, partition ve frequent pattern growth algoritmaları veri setlerindeki birliktelik analizlerinin tespiti için kullanılmaktadır [28]. Birliktelik analizi, bir veri kümesindeki kayıtlar arasındaki bağlantıları arayan denetimsiz (unsupervised) veri madenciliği şeklidir.

Veri Madenciliği Aşamaları

Verinin içindeki gizli örüntülerin çıkarılması ve verinin nitelikli bilgiye dönüştürülmesi amacıyla, istatistiksel tekniklerin ve yapay zeka algoritmalarının kullanılarak, ham veriden bilginin keşfedilmesi süreci aşağıda gösterilmiştir.

Veri Madenciliği İnfografi

Veri Madenciliği Dönüşüm

Yukarıdaki dönüşüm infografisinde CRISP-DM (Cross-Industry Standard Process for Data Mining) metodolojisi genişletilerek, bilgi keşfi sürecinin aşamaları aşağıda verilmiş olup her bir aşamanın ayrıntıları belirtilmiştir.

1. Veriyi Anlama: Mevcut veri tabanındaki veya veri ambarındaki verinin niteliğini ve kalitesini belirlemek

2. Veri Seçme ve Birleştirme: Veri kaynaklarından, yapılacak uygulama için uygun verileri seçmek ve bir araya getirmek

3. Veri Temizleme: Gürültülü, tutarsız ve eksik verileri çıkarmak veya normalize etmek

4. Veri Dönüşümü: Veriyi, veri madenciliği tekniklerinde kullanılabilecek hale getirmek için etiketlemek veya değiştirmek

5. Verinin Görselleştirilmesi: Opsiyonel olarak, büyük boyuttaki veriler arasındaki ilişkilerin görülmesini kolaylaştırmak ve analiz için kurulan hipotezlerin doğruluk ihtimalini sınamak

6. Veri Azaltma: Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebileceği için, sonucu nerdeyse hiç değişmeyecek şekilde veriyi azaltmak

7. Model Kurma: Veri örüntülerini yakalayabilmek için uygun akıllı metotları uygulamak

8. Model Değerlendirme: Belirlenen veriler üzerinde farklı algoritmalar, farklı kriterlerde çalıştırıldıktan sonra en doğru sonucu hangisinin verdiğini bulmak

9. Örüntü Değerlendirme ve Bilgi Sunumu: Belirli ölçütlere göre elde edilen bilgiyi temsil eden örüntüleri tanımlamak ve bilgiye dönüştürülmüş ham verinin kullanıcıya sunumunu gerçekleştirmek

Büyük hacimli veri tabanlarında ya da birden fazla veri tabanı veya farklı veri kaynakları içeren sistemlerde, ilginç ve değerli olan bilgiye erişmeyi sağlayan bilgi keşif süreci oldukça zordur. Bu sebeple uygulamalarını doğru bir şekilde gerçekleştirebilmek adına; temel kavramların, kullanılan tekniklerin birbirlerinden farkının veya üstünlüğünün iyi bilinmesi veya analiz aracı seçimi, veri madenciliği sürecinin daha kısa ve verimli yönetilmesini sağlayacaktır.

 

 

Leave a Reply