Ünite 6: Veri-Yönelimli Karar Destek Sistemleri ve Analitik Sistemler

Giriş

20’nci yüzyılın son çeyreği, işletmelerin tüm faaliyetlerinin olabildiğince kayıt altına alındığı, bilgi toplama ve saklama işlevlerinin, yaşanan teknolojik gelişmelerle ekonomik ve güvenilir bir biçimde gerçekleştirildiği, bir yönüyle elektronikleşme, otomatikleşme ve haberleşme dönemi olarak insanlık tarihinde olduğu kadar endüstri sosyolojisindeki yerini de almıştır. İşletmelerin faaliyetlerini elektronik ortama aktarmaları yalnızca operasyonel bir iyileştirme niyetiyle değil, yanı sıra yasal bir takım düzenlemelerin getirdiği yükümlülüklerle de ilgilidir. Söz konusu elektronikleşme, otomatikleşme ve haberleşme dönemi, işletme yönetimlerine bir dizi fırsat sunmuş olmakla beraber, işletmelerde uygulanan politikaların, alınan kararların ve yönetsel tutumların hem içeriden hem dışarıdan denetlenebilmesine de olanak sağlamıştır.

21. yüzyıl, işletme bilgilerinin yönetiminde yepyeni bir dönemi işaret etmektedir. Yeni dönem, Davenport gibi yazarların Analitik 3.0 adını verdiği, öncelikle işletme-içi bilgiler olmak üzere erişilebilir tüm bilgilerden yararlanarak, gelecekte sunulacak ürün ve hizmetlerin tasarımı ve benimsenecek yenilikçi işletme politikalarının geliştirilmesini yanı sıra işletmenin teknik, taktik ve stratejik düzeylerdeki kararlarının ve tasarruflarının tümünde verilerden ve bunların analizlerinden yararlanılmasını zorunlu kılmaktadır. Veri erişiminin işletme içi ve dışı iki önemli bileşeni vardır. İşletme içindeki bileşen, veri ambarı (data warehouse) ve marketi (data mart) altyapısının ve anlayışının varlığıdır. İşletme dışındaki bileşen ise 1990’ların başında dönemin başkan yardımcısı Al Gore’un bilgi süper-otobanı (information superhighway bazen infobahn) olarak adlandırdığı, bugün beklentilerin çok ötesinde gelişme göstermiş olan İnternet’tir. Veri derleme, erişimi ve paylaşımının sunduğu olanaklardan yararlanmak, büyük işletmeler için bir standart haline gelmiştir. Orta ve küçük ölçekli işletmelerin de bu veri-merkezli gelişmelere kayıtsız kalmayacakları öngörülmektedir.

Endüstri 4.0 olarak adlandırılan, mekanik ve elektronik teknolojilerin kusursuz entegrasyonunu içeren sanayi devriminin bu dördüncü aşaması Nesnelerin İnterneti’nin (Things of Internet), yaşamlarımıza sunduğu katkıları arttırdıkça, yalnızca verilere değil, doğrudan karmaşık durum ve yöntem bilgilerine erişmek de olanaklı hale gelecektir. Endüstrileşmenin bu aşamasında, dijital dünyanın olanakları arttıkça, üretim ve servis endüstrilerindeki insan rolü yeniden tanımlanmakta, mavi yakalı işlerden beyaz yakalı işlere, yani insan-gücünden beyin-gücüne bir yönelim ortaya çıkmaktadır. Bu yönelimin, insanın tasarım ve yaratıcılık yetenekleri ile birlikte bu süreçleri yönetme yeteneğini gereksinen sektörel bir işgücü profiline yol açacağı düşünülmektedir. Bu ise yönetim sorumluluğunu, yalnızca yönetici denen özel bir meslek grubunun işlevi olmaktan çıkararak, her zamankinden daha yaygın ve önemli bir konuma getirecektir. Bazı öngörüler insansız fabrika aşamasına gelen bir endüstriyel yapılanmadan bahsetmekle beraber, en olası senaryo, insan ve makinayı içkin olarak yatkın oldukları en uygun noktalarda kullanan melez (hybrid) endüstrileşme olacaktır.

Karar destek sistemleri açısından, yapılandırılmış problemlerin karar otomasyonlarına dönüştürülmesi sürecinin ivme kazanacağı ve bunun yönetsel süreçlerin doğal yapı taşlarına dönüşeceği görünmektedir. Bunun sebebi, nesnelerin birbirleri ile iletişiminin yaygınlaşmasının sunduğu olanaklardır. Yöneticilerin zamanlarının çoğunu yarı-yapılandırılmış ve yapılandırılmamış problemlere ayırmaları gereksinimi her zamankinden daha fazla olacaktır. Rutin ve tekrarlı yönetsel işlevlerin, karar otomasyonlarına kavuşturularak, başarılı bir şekilde endüstriyel sistemlerin doğal bir bileşeni haline gelmesi, insan beyin gücünün yaratıcılığından yararlanmaya açık problemleri yönetimlerin odak noktası yapacaktır. Bu karar problemleri; karar vericilerin doğrudan bir karara yoğunlaşmalarını gerektirebileceği gibi bir problemi daha iyi anlama, yeni ilişkiler keşfetme, işletmecilik bileşenlerini yakından analiz etme, sektörel değişimleri inceleme ağırlıklı yönleriyle veri olanaklarından fazlasıyla yararlanmayı gerektirecektir.

Analitik Sistemler Ve İşletme Analitiği

Karar analizi, bir karar problemi karşısında karar vericileri yönlendirecek her türlü yöntem ve bilginin kullanımına yönelik çabaların bütünüdür. Karar analizi, problemlerin yapılandırılmışlık düzeyini ortaya koyar ve özel olarak risk ve belirsizlik karşısında karar verme araçlarıyla ilgilenir. İşletme analitiği (business analytics) ise bir işletmenin faaliyetlerinin izlenebilirliğini sağlayan bilgi ve raporların, söz konusu faaliyetlerin eriştiği performans düzeyinin değerlendirilebilmesine olanak veren göstergelerin, plan ve programların gerçekliğini destekleyecek tahmin ve kestirimlerin, işletmenin amaçlarına eriştirecek optimum eylem seçeneklerinin, bilimsel yöntemler ve çağdaş teknolojik olanaklarla bütünleştirildiği, sunulduğu ve tüm gereksinim noktalarına eriştirildiği çözümlerin ve bu çözümleri özümseyen kurumsal anlayışın üst başlığıdır. Bu üst başlığın hizmet ettiği İşletme analitiği üst başlığının altında yer alan, işletme analitiğinin tüm özelliklerinden yararlanmakla beraber daha dar bir işlevsel alanda fakat daha özel ve daha somut amaçlara hizmet eden analitik yapıları bu çalışmada Analitik Sistemler olarak adlandırılacaktır. Analitik sistemler, sundukları işlevlere göre betimsel (descriptive), tanısal (diagnostic), buluşsal (discovery), kestirimci (predictive) analitik ve karar (prescriptive) analitiği (bazen çözümsel analitik de denir) olarak beş ana başlıkta ele alınabilir (Şekil 6.1). Kullanım alanı ve amacına göre ise başlıca analitik sistemler şöyle sıralanabilir; Sağlık (health) analitiği, spor (sport) analitiği, pazarlama (marketing) analitiği, müşteri (customer) analitiği, finansal (financial) analitik, web analitiği ve öneri (recommender) sistemleri, metin (text) analitiği, görsel (visual) analitik, duygu veya görüş (sentiment/opinion) analitiği, sosyal veya sosyal ağ (social/social network) analitiği, sosyal medya (social media) analitiği, satış (sales) analitiği, çizge (graph) analitiği, dijital (digital) analitik, işlemler (operations) analitiği, veri (data) analitiği, akım (stream) analitiği, konum (location) analitiği ve insan (people) analitiği.

Bir karar probleminin varlığının farkedilmesinden bir kararın uygulamaya geçirilmesi ve uygulama sonuçlarının izlenmesi sürecindeki tüm aşamalarda yapılandırılmış, yarı-yapılandırılmış ve yapılandırılmamış aşamalar veya alt süreçler mevcuttur. Karar problemlerinin anlık (adhoc) olması halinde iyi tasarlanmış bir karar destek sisteminin yardımını almak olanaksız olabilir. Ancak sürecin bazı aşamalarına yönelik hesaplama ve değerlendirmeleri destekleyecek betimsel, tanısal, buluşsal, kestirimci analitik ve karar analitiği olanakları var ise bu analitik sistemlerin sunduğu veri bulma, bilgi türetme ve analiz yürütme yeteneklerinden yararlanılabilir. Burada sözü edilen analitik sistemler öngörülen veri, bilgi ve analiz gereksinimlerini yerine getirmek üzere tasarlanmış olabilir. Böyle bir analitik sistem periyodik veya istek üzerine işletme raporları, grafikler sunan, anahtar performans göstergelerine uygun olarak işletme içi veri kaynakları ile çalışan ve karar vericilerin analize yönelik yöntemlerden yararlanabilmelerini destekleyen bir karar destek sistemi olarak karşımıza çıkabilir. Bu kitapta işletme analitiği ve analitik sistemler kavramları birbirinin yerine kullanılacaktır.

İşletme analitiği işlevlerine göre kaça ayrılır?

Analitik sistemler, işletmedeki bir karar verici, karar problemi veya bir operasyona yönelik raporlama, analiz ve değerlendirme araçlarını, veri ambarı, veri marketi gibi kurumsal veri kaynaklarının olanakları ile birlikte ve/veya internet-merkezli veri kaynak ve veri akımlarından yararlanmak üzere tasarlanmış ve kurumsal olarak benimsenmiş sistemlerdir. Diğer bir deyişle bir analitik sistem; analiz araçları ile (veri arama, göstergeler, hesaplama, görselleştirme, raporlama vb.) geniş anlamıyla veri kaynaklarının olabildiğince kusursuz bir entegrasyonudur. Kurumsal benimseme ve akreditasyon yönüyle kişisel karar destek ve karar analitiği sistemlerinden ayrılırlar. Bunun yanı sıra, bireysel çabaların ötesinde kurumsal destek ve/veya yatırım gerektiren çok-değişkenli regresyon analizi, kansei (duygu) mühendisliği, yapay zekâ, doğrusal olmayan programlama ve optimizasyon, yapay sinir ağları, doğakökenli algoritmalar, otomatik öğrenme (machine learning) ve veri madenciliği gibi gelişmiş yöntem ve yaklaşımların kullanımına yönelik olanakları sunması analitik sistemleri, işletme çalışanlarının yürüttüğü kişisel analitik çaba ve operasyonlarından ayırmaktadır. Özetle, analitik sistemler, analitik operasyonlara veya karar analizine ileri analiz araçları ve entegre veri kaynakları olanaklarını eklemektedirler.

Analitik sistemlerle karar analizi arasında ne fark vardır?

Veri-yönelimli karar destek sistemlerini diğer karar destek sistemlerinden ayıran iki temel özelliği vardır; veri kaynaklarına erişim ve verilerin uygun yöntemlerle işlenmesi. Genellikle böyle bir karar destek sisteminin karar vericiye döndüreceği bilgilerin kararın kalitesini doğrudan etkileyeceği kabul edilir. Örneğin, bir ay sonra bir yatırım aracı olarak bir gram altının kaç liradan işlem göreceğini tahminlemek için tasarlanacak bir karar destek sistemi veriyönelimli bir karar destek sistemi olacaktır. Önümüzdeki yıl boyunca Türk Lirasının her ay için yabancı para birimleri karşısındaki değerini tahminleyen yapay sinir ağları ve genetik algoritmalardan yararlanan bir karar destek sistemi gene veri-merkezli bir karar destek sistemi olarak karşımıza çıkar. O halde işletme analitiği, veri madenciliği ve veriyönelimli karar destek sistemleri hangi noktada buluşmaktadır? Bu sorunun yanıtı işletme analitiği ve veri madenciliğinin kendilerine özgü yöntem, teknik, yaklaşım ve algoritmalarının olanaklarını bilgi sistemleri ile etkileşimli veya uyumlu bir şekilde kullanıcısına sunmalarında yatar. Yani işletme analitiği ve veri madenciliği, bir karar probleminin çözümünü hedefliyor ve karar vericinin beklentilerini gözeterek temel karar destek sistemi özelliklerini sergiliyorlarsa (diyalog, veri ve model yönetimi modülleri), veri-yönelimli bir karar destek sisteminin varlığından söz edilebilir. Veri madenciliğinden nasıl (sistemli) ve ne amaçla (karar problemi) yararlanıldığı belirleyicidir. Optimizasyon-yönelimli karar destek sistemlerinde simpleks algoritması doğrusal karar modellerinin çözümünde kullanılan önemli bir bileşendir. Öte yandan simpleks algoritması, matematik, istatistik, mühendislik bilim dallarında pek çok farklı problemin analiz ve çözümünde kullanılmaktadır. Veri madenciliği, pek çok algoritma ve analiz aracından yararlanan disiplinler arası bir bilim dalıdır. Veri-yönelimli karar destek sistemleri özellikle yapılandırılmamış karar problemlerinde veri madenciliğinden yararlanmaktadır. İşletme analitiği ise raporlamadan, tahminlemeye, tanıdan en iyi kararın belirlenmesine kadar tüm işletme faaliyetlerine az ya da çok katkı sağlayan ve yöneticilerin yararlandığı tüm karar destek sistemlerinin omurgasını oluşturur. Veri ambarlarıyla bütünleşik çalışan işletme analitiği araçları, günlük bilgilerden çok değerli parametre kestirim, tahmin ve analiz bilgilerine kadar giden geniş bir bilgi ara katmanı olarak kurumsal ve kişisel tüm karar destek sistemlerinin ortak paydasında yer almaktadır.

Kurumsal Raporlama

Karar vericilerin güncel ve doğru bilgilere erişmesini sağlamak üzere hazırlanmış, elektronik (sesli, görüntülü veya metinsel) veya kâğıda basılmış, herhangi bir iletişim aracına rapor denir. İşletmelerde bilgi paylaşımı veya aktarımını gerektiren her durum için amaca özel olarak hazırlanmış raporlar mevcuttur. Spesifik amaçlarının ötesinde raporlar üç başlıkta gruplanabilir:

  1. Performans Gösterge Raporları: Birçok işletme, performanslarını, çıktıların ölçümüne dayalı göstergelerle (metrics) yönetir. Anahtar performans göstergelerinin (KPI-key performance indicators) doğru belirlenmesi, performans gösterge raporlarının önemini arttıracaktır.
  2. Gösterge-Paneli (Dashboard) Raporları: İşletme analitiği ve karar destek sistemleri için çok tercih edilen raporlama türüdür. Otomobillerin gösterge panellerine veya uçakların kokpitlerine benzer bir görünümde bilgisayar ekranlarında performans göstergelerinin gerçek zamanlı izlenebilmesini sağlar. Performansın düzeyine göre kırmızı turuncu ve yeşil renklerle etkili ve hızlı bir performans takibi ve değerlendirmesi gerçekleştirilebilir.
  3. Kurumsal Karne Tarzı (Balanced Scorecard) Raporlar: Bir kurumun bütünsel başarısında katkılarına göre departman ve birimlerin notlanmasını içerir.

Bilginin Görselleştirilmesi

Veri, durum bilgisi, yöntem bilgisi ve uzmanlık bilgilerini, bilginin türleri olarak değerlendirmek mümkündür. Bilginin görselleştirilmesi bağlamında kastedilen görselleştirme özellikle veri ve durum bilgisine yöneliktir. Bunun sebebi, veri-yönelimli karar destek sistemlerinin varlık sebebinde yatmaktadır: karar vericilerin karar sürecini her yönüyle iyileştirmek. Nitekim görselleştirmenin amacı, veri ve durum bilgilerinin okunurluğunu, anlaşılırlığını ve yorumlanabilirliğini arttırmaktır. Bir yönüyle görselleştirme, bilginin (veri ve durum bilgisi) keşfedilmesine yol açan görsel özellik ve olanaklardan yararlanmaktır. Söz konusu olanakların başında tüm türleriyle grafikler, haritalar, çizimler, kurumsal karneler, gösterge panelleri, görsel simülasyon ve animasyonlar gelmektedir. Görselleştirme araçlarının birçoğu çok eski tarihlerden itibaren kullanılma özelliğine sahip olmasına rağmen, bilginin görselleştirilmesinin bir bilim dalı olarak kabul edilmesi 21’nci yüzyıla kalmıştır. Bu gerçeğin arkasında iki ana neden vardır; teknolojik gelişmeler ve görsellerin küreselliği. Teknolojik gelişmeler ise iki alt başlıkta ele alınabilir:

  1. Bilgisayarların donanım ve yazılım olarak görselleştirme araçlarının geliştirilme ve kullanılmasında geldiği düzey,
  2. İnternet başta olmak üzere bilgisayar ağlarının bilgi kaynaklarıyla görselleri buluşturmada erişilen teknolojik ve yazılımsal başarı.

Karar destek sistemlerinin en önemli bileşeni diyalog yönetimi modülüdür. Söz konusu modül, karar vericinin karar kapasitesini arttırabilme özelliğine sahiptir. Bu bağlamda görselleştirmeden, diyalog yönetim modüllerinin geliştirilmesinde olabildiğince yararlanılması gerekir. Veri madenciliği gibi yapılandırılmamış (unstructured) problemlere yönelik karar destek sistemlerinde çok-boyutlu görselleştirme özel bir öneme sahiptir. Görselleştirmede yararlanılan temel bileşenler arasında çizgi grafiği (line chart), çubuk grafiği (bar chart), pasta grafiği (pie chart), dağılım grafiği (scatter plot) ve kabarcık grafiği (bubble chart) ilk gelenlerdir. Özel amaçlı bazı grafikler arasında ise histogram (histogram), gantt diyagramı (gantt chart), pert diyagramı (pert chart), haritalar (maps), kurşun grafiği (bullet graphics), ısı haritaları (heat map), vurgu tablosu (highlight table), radar grafiği (radar graphics) ve ağaç haritası (tree map) sayılabilir. Görselleştirmenin analitik sistemlere ve karar destek sistemlerine katkısının eriştiği düzeyin sonucu olarak görsel analitik terimi ortaya atılmıştır. Yani görselleştirme kapasitesinden yoksun veri/bilgi yönetimi ve analizi araçlarının yönetimlere katkısı sınırlıdır. Görsel analitik araçlarının sunduğu olanaklardan bazıları şunlardır:

  1. Her düzeydeki karar vericileri veri keşfetme yöntemlerinden ve analitik olanaklardan yararlandırmak üzere, kullanımı kolay ve web üzerinden karşılıklı etkileşimli olarak gerçek verilerle buluşturmak,
  2. Karmaşık soruların yanıtları ile analitik çalışanların yeteneklerini buluşturmak,
  3. Her türlü elektronik cihazdan (tabletler, akıllı telefonlar ve amaca yönelik tüm sayısal ortamlar) erişilebilir ve gerçek verileri kullanan analitik araçlar üzerinden işletme içi bilgi paylaşımı ve işbirliğini genişletmek,
  4. Bilgi-işlem departmanlarından beklenen analizlerin çok daha kısa sürede gerçekleştirilmesini sağlayarak bilgi-işlem personelinin iş yükünü azaltmak.

Performans Gösterge Panelleri

Gösterge panelleri; kurumların yönetim ve denetim niteliği taşıyan önemli bilgilerini, öncelikle anahtar performans göstergelerini, tek bir ekran üzerinde görüntüleyen, bir bakışta anlaşılabilirliği olan, gerektiğinde ayrıntıların da görüntülenmesini destekleyen ve göze hitap eden ekran sunumlarıdır. Görselleştirme; betimsel ve tanısal analitikten buluşsal analitiğe, kestirimci analitikten karar analitiğine ve bu bağlamda karar verici ile etkileşimin önemli olduğu tüm karar destek sistemlerinde özel bir yere sahip olmaya devam edecektir.

Çok-Amaçlı Bir Karar Destek Sisteminin Görselleştirilmesi

Karar destek sistemleri üç farklı problem kategorisi için geliştirilebilirler;  :BQ MBOE S MN?, yarıyapılandırılmış ve yapılandırılmamış. Problemdeki amaç sayısı problemin yapılandırılmasındaki belirsizliği arttırır. Bunun sebebi, birbirinden farklı ve çelişen amaçların tatmin edilmesinde ortaya çıkan ödünleşme sorununun matematiksel olarak çözümlenmesinin karar vericileri tatmin etmemesidir. İşgücü ve tezgâh verimliliğini arttıran veya çalışan memnuniyetini iyileştiren kararların üretim maliyetlerini düşürmek veya kârı en büyüklemek gibi amaçlarla çelişmesi ödünleşme sorununa örnek olarak verilebilir. Çok amaçlı programlama ve çok-ölçütlü karar verme yöntemleri makro düzeyde ve proje tarzı problemler için bazı açılımlara sahip olmakla beraber, yöntemlerin çoğu karar vericinin önceliklendirmesine, ağırlıklandırmasına ve tercihlerini yansıtmasına gereksinim duymaktadır. Çok amaçlı karar destek sistemleri, karar vericilerin karar sürecinde ancak değerli ve anlamlı, birbirine alternatif olabilecek çözümleri türetmek üzere geliştirilirler. Söz konusu anlamlı ve birbirinin alternatifi olabilecek çözümlere baskın çözümler denir. Çok amaçlı bir karar problemi ile karşı karşıya kalan bir karar vericinin baskın çözümlere eğilmesi ve baskın olmayan çözümlere zaman harcamaktan kaçınması gerekir. Çok amaçlı bir karar destek sisteminin karar vericiye pareto-optimal çözümlerden oluşan bir liste veya grafik sunması beklenir.

Veri Madenciliğine Giriş

Veri madenciliği; istatistiksel, matematiksel, yapay zekâ ve otomatik öğrenme (machine learning) tekniklerinden yararlanarak durum bilgilerini çıkarmak ve/veya yöntem bilgilerini keşfetmek ve varsa örüntüleri (pattern) tespit etmektir. Bu yöntem bilgileri ve örüntüler karşımıza kurallar, benzeşmeler, korelasyonlar, eğilimler, kestirim modelleri ve hatta algoritmalar olarak çıkarlar. Veri madenciliğinde kullanılan yöntemler ve erişilecek bulgular arasında bir’’ yöntem-sonuç ‘’ yoktur. Elde edilecek sonuç, problemin özelliklerine, madencinin (karar verici veya analitik uzmanı) yetenek ve deneyimine hatta veri kaynaklarında kullanılan veri modellerine bağlı olacaktır. Bu özellikleri, veri madenciliğinin hedef problemlerinin özünde yarı-yapılandırılmış (semi-structured) veya yapılandırılmamış (unstructured) olduğu anlamına gelir. Ancak zaman içinde yapılandırılmış tüm istatiksel veri analizi çalışmaları da veri madenciliği başlığı altında kendine yer bularak, yapılandırılmış (structured) problemlerden yapılandırılmamış problemlere kadar, veri madenciliği verilerini kendine konu alan geniş bir anlayışın üst başlığı haline gelmiştir. Dahası, veri madenciliği, verilerden keşif yapmanın otomatikleştirildiği süreçlerin ortak bir adı haline gelmiştir. Oysa veri madenciliğinin tanımlarında nasıl olacağı belli olmayan (nontrivial) bir süreç olduğu belirtilmektedir. Böyle bir sürecin yapılandırılmış bir problem olarak düşünülmesi yanlış olur. Bu bilgiler ışığında veri madenciliği, karar destek sistemleri bağlamında üç farklı yapılandırılmışlık düzeyindeki problem içinde kullanılmaktadır.

Yapılandırılmış veri madenciliği: Yaygın olarak sorgular ve istatistiksel analizlerle ele alınabilen veri madenciliği problemleridir. Hangi veri setlerinin hangi yöntemlerle işleneceği bellidir. Karar vericinin tasarım aşaması dışında sistemle ilişkisi yoktur. Betimleyici istatistikler, SQL sorguları, çevrimiçi analitik işleme (OLAP), korelasyon ve varyans analizi buna örnek olarak verilebilir. Süreç otomatikleştirilmeye uygun olarak tasarlanabilir. Ağırlıklı olarak nispeten basit hipotez yönelimli veri madenciliği çalışmalarına yöneliktir.

Yarı-yapılandırılmış veri madenciliği: Ele alınan problemin çeşitli yöntemlerle sonuçlandırılması mümkün olmakla beraber hiçbirinin sonucunu karar vericinin değerlendirmesi olmadan uygulamak doğru değildir. Madencilik sürecinde karar verici, tüm aşamalarda tasarımcı ve denetçi olarak yer alır ancak verilerin işlenmesi aşaması otomatik olarak gerçekleştirilir. Karşılıklı etkileşim vardır. Kanser hastalarının kalan ömürlerinin tahmininde lojistik regresyon, yapay sinir ağları ve Weibull analizinden yararlanılması ve sonuçların uzmanlar tarafından değerlendirilmesi yarı-yapılandırılmış veri madenciliğine örnek olarak verilebilir. Ayrıca karar ağaçları ve kümeleme algoritmaları ile yapılan çalışmalar da genellikle bu kapsamdaki çalışmalardır. Hipotez yönelimli ve keşif yönelimli veri madenciliği çalışmalarının her ikisine de yönelik olarak kullanılabilir.

Yapılandırılmamış veri madenciliği: Tam bir analitik çalışma olarak karşımıza çıkar. Ağırlıklı olarak keşifyönelimli veri madenciliği (discovery-driven data mining) çalışmalarını içerir. Genellikle daha önce üzerinde çalışılmamış hipotezlerin test edilmesinde yaşanan süreç buna örnek olarak verilebilir. Doğru hipotezin kullanılması, çeşitli yöntemlerle analizin yürütülmesi ve elde edilen sonuçların güvenilirliği, karar verici veya veri bilim insanının sorumluluğunda gerçekleştirilir. Kural ve algoritma formunda yöntembilgisi çıkarımı yapan madencilik çalışmaları da bu kapsamdadır. Örneğin, hazırlık süreleri toplamının enküçüklendiği bir tek tezgâh çizelgeleme probleminin çözümü için çizelgeleme kuralı türeten genetik programlama yaklaşımı buna örnek olarak verilebilir.

Veri madenciliğinin diğer bazı başlıkları da şunlardır: yöntembilgisi çıkarımı (knowledge extraction), veri arkeolojisi (data archeology), veri keşfi (data exploration), veri örüntüsü işleme (data pattern processing) ve veri harmanlama (data harvesting). Hangi başlık altında incelenirse incelensin veri madenciliği, veri-yönelimli karar destek sistemleri için değerli model ve veri yönetimi araçlarına sahiptir. Bu araçlardan en yaygın olanları şunlardır: Sınıflama (classification), kümeleme (clustering), ilişkilendirme (association), dizi keşfi (sequence discovery).

Sınıflandırma

Veri madenciliği çalışmalarının en yaygın olanlarından biridir. Verilerin hangi sınıfa, gruba veya kategoriye ait olduğunu belirlemeyi amaçlar. Örneğin aracına kasko sigortası yaptırmak isteyen bir müşterinin hangi kasko sigorta poliçesine uygun olduğunun belirlenmesi bir sınıflama problemidir. Poliçeler bellidir, ancak poliçelerin kapsamları ve satış bedelleri birbirinden farklıdır. Araç ve sürücünün özellikleri, beklenen risk ve maliyetler değerlendirilerek, müşteri bir poliçe grubuna dâhil edilir. Pek çok sınıflandırma algoritması ve yaklaşımı mevcut olup bunlardan bazıları şunlardır:

  1. Karar ağacı algoritmaları
  2. İstatistiksel analiz
  3. Yapay sinir ağları
  4. Vaka-tabanlı akıl yürütme (case-based reasoning)
  5. Bayes sınıflandırıcılar
  6. Genetik algoritmalar
  7. Kaba küme yaklaşımı.

Karar Ağacı Algoritması

Karar ağaçları sınıflandırma yaparken öznitelikleri (attributes) değerlendirirler. Örneğin araç kaskosu yaptıracak bir müşterinin yaşı ve trafik siciline bakarak kasko talebinin içerdiği riski belirleyecek olalım. Bu durumda yaş ve sicil girdi değişkenleri yani öznitelikleridir. Bir ara düğüm öznitelik değerlendirmesi içerir. Yaprak düğümler sınıflandırmanın sonuçlarıdır. Dallar ise düğüm değerlendirmesinin sonucunu gösterir. Karar ağaçlarının ana fikri, bir eğitim setini özyinelemeli olarak her bir bölüm yalnızca bir sınıf içerecek şekilde bölmektir. Ağacın her ara düğümü bir ayrışma noktasıdır. Başlangıç ağaç oluşturulduktan sonra doğruluğu arttırmak üzere budama da yapılabilir. Karar ağaçları oluşturmada yararlanılan diğer bir kavram entropidir. Entropi, bir veri setindeki rassallığı ve belirsizliği ölçer. Eğer bir alt kümedeki tüm veriler yalnızca bir sınıfa aitse entropisi sıfır demektir. Çünkü bu durumda belirsizlik sıfırdır. Bu yaklaşımın amacı, tüm alt kümelerin entropilerinin sıfır olduğu alt ağaçlar yaratmaktır. Karar ağaçları eksiksiz bilgilerle çalıştığından karar otomasyonlarında en çok başvurulan sınıflama yöntemlerinden biridir. Karar kurallarına dönüştürülerek uzman sistemlerde de kullanılmaktadır. Uzman sistemler için kullanılan karar kuralları setinin eksiksiz olması gerekmez.

Kümeleme

Sınıfların önceden bilinmediği veya tanımlanmadığı sınıflama problemi olarak tanımlanabilir. Kümelemede amaç, nesneleri öyle gruplara ayırmaktır ki nesnelerin, ait olduğu gruptaki bireylerle arasındaki benzerlik düzeyi yüksek iken, ait olmadığı gruplardaki bireylere benzerlik düzeyi düşük olsun. Kümeleme analizinde kullanılan yöntemler genelde iki şekilde bunu gerçekleştirirler:

  1. Bölümleyici (divisive) yöntemler: Başlangıçta tüm bileşenler tek bir kümeye aittir, sonra alt kümelere (cluster) ayrılırlar.
  2. Bütünleştirici (aglomerative) yöntemler: Her bileşen başlangıçta kendi başına bir küme gibi düşünülür, daha sonra bu kümeler (clusters) bir noktaya kadar birleştirilir.

Doğrudan Kümeleme (Direct Clustering) Algoritması

Chan ve Milner tarafından 1982’de önerilmiş olmakla beraber, klasik kümeleme yöntemlerinden farklı bir yaklaşıma sahiptir. Algoritmanın adımları doğrudan kümelerin oluşturulmasına yöneliktir ve benzerlik ölçüsünden yararlanmaz. Basit ve anlaşılır olduğu için tercih edilmiştir. Algoritma, bir e-perakende sistemi ile çalışan parfüm işletmesinin müşterilerini sınıflamasını içeren bir problem üzerinden açıklanacaktır. Müşterilerin (1.8) sitemizden şu ana kadar temin ettikleri parfümler (A..G) aşağıda verilmiştir (Sayfa 157’deki Tablo 6.2’de gösterildiği üzere). Eğer bir müşteri mağazamızdan belli bir markadan alışveriş yaptı ise tabloda bu hücrelere 1 verilmiştir. Yani müşteri en az bir kez o marka parfümden temin etmiştir.

Hiyerarşik Kümeleme (Hierarchical Clustering)

Diğer bir basit kümeleme yöntemi hiyerarşik kümelemedir. Diğer pek çok kümeleme algoritması gibi bu da benzerlik değerlerinden (similarity, proximity) yararlanmaktadır. Tablo 6.7’de, sayfa 159 gösterildiği üzere, değerler arttıkça aralarındaki benzerlik artacak şekilde küme elemanlarının benzerlik matrisi verilmiştir. Hiyerarşik kümelemenin bu örnekte olduğu gibi uygulanmasına Tekli Bağlantı (Single Linkage) En Yakın Komşu (Nearest Neighbor) yöntemi denir. Kümelemeye esas parametrelerin niteliğine göre kullanılan matrislere benzerlik (similarity), benzemezlik (dissimilarity), uzaklık (distance) veya yakınlık (proximity) adları verilir.