Ünite 8: Web Madenciliği ve Sosyal Medya Madenciliği

Veri Madenciliği ve WEB Madenciliği

Veri madenciliği, veri mühendisliği ve bilgi keşfi alanlarında son zamanlarda oldukça günceldir. Temelde veri madenciliği, e-ticaret uygulamalarındaki işlem verileri ya da biyoinformatik alanında genetik ifadeler gibi farklı veri türlerinden oluşan büyük miktarda veri yığını içerisinden, anlamlı ve yararlı bilginin ortaya çıkarılması anlamına gelir. Verinin türü ne olursa olsun veri madenciliğinin temel amacı, mevcut veri yığını içerisindeki gizli veya daha önce fark edilmemiş bilginin açığa çıkarılması yani keşfedilmesidir. İlişki kuralları, sıralı örüntü madenciliği, denetimli ve denetimsiz öğrenme algoritmaları son yıllarda yaygın olarak kullanılan ve üzerinde yoğun araştırmalar yapılan veri madenciliği alanlarıdır.

Son on yılda veri madenciliği, web belgeleri de dâhil olmak üzere web nesneleri, web bağlantı yapısı, web kullanıcı işlemleri, web semantik vb. gibi birçok web veri yönetimi araştırmalarında başarılı bir şekilde uygulanmaktadır. Çeşitli web verilerinden elde edilen anlamlı ve yararlı bilgiler, web nesneleri arasındaki ilişkileri anlamamızı ve keşfetmemizi sağlamakta ve web veri yönetiminin geliştirilmesi için kullanılmaktadır. Web madenciliğinde kullanılan yöntemler sayısal zekâ olarak da bilinen ve genel olarak veritabanı, veri madenciliği, otomatik öğrenme ve bilgi çıkarsama vb. gibi geniş bir uygulama alanına sahip akıllı hesaplama yaklaşımlarına dayanmaktadır. Web madenciliği kullanıcıların aradıkları cevaba hızlı ve doğru bir şekilde ulaşabildikleri devrim niteliğinde bir süreçtir.

Veri madenciliği,

  1. Verinin elde edilmesi
  2. Verinin saklanması ve yönetimi
  3. Veri erişiminin sağlanması
  4. Verinin analiz edilmesi
  5. Analiz sonuçlarının anlaşılır bir biçimde sunulması,

temel adımlarından oluşan bir süreçtir.

WEB Madenciliği Süreci

Web madenciliği web veri yönetimi kapsamında akıllı hesaplama tekniklerinden birisidir. Genel olarak web madenciliği, webdeki veri yığınları içerisinden veri madenciliği yöntemleri aracılığı ile yararlı bilgilerin ayıklanması ve sonuç çıkarılması işlemleri olarak tanımlanabilir. Web madenciliği araştırmaları özellikle veri madenciliği, bilginin keşfi ve otomatik öğrenme (machine learning) alanlarının yanı sıra veritabanı yönetimi, bilgi erişimi ve yapay zekâ vb. gibi alanlarda çalışan birçok akademisyen ve mühendisin ilgisini çekmektedir.

İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel adımda ele alabiliriz.

  1. Kaynakların Tespiti: İlgilenilen konuda bilgi içeren web dokümanlarının belirlenmesi ve elde edilmesi.
  2. Bilgi Seçimi ve Ön İşleme: Elde edilen kaynaklardan ihtiyaç duyulan bilginin otomatik olarak seçilmesi ve kullanılabilir hâle getirilmesi.
  3. Genelleştirme: Bireysel web sitelerindeki örüntü (pattern) veya kuralların otomatik olarak çıkarılması ve diğer web siteleri ile karşılaştırarak genellenmesi.
  4. Analiz: Elde edilen genel örüntü veya kuralların doğruluklarının onaylanması ve / veya yorumlanması.

WEB Madenciliği Veri Kaynakları

Web madenciliğinde kullanılabilecek veriler genel olarak, sunucu (server), istemci (client) ve vekil (proxy) sunucu gibi farklı kaynaklardan elde edilirler. Farklı kaynaklardan elde edilecek veriler de farklı yapılara sahip olmaktadırlar. Web madenciliğinde kullanılan verileri dört başlıkta incelenebilir.

  1. İçerik verisi: Web sayfalarında kullanıcının erişimine sunulan verilerdir. Bunlar şekil, resim, grafik, görüntü ve ses dosyaları gibi gerçek verilerin yanı sıra, tanımlayıcı kelimeler, etiketler ve doküman özellikleri gibi verilerden oluşmaktadır.
  2. Yapı verisi: Bir web sitesinin içeriğinde yer alan sayfaların birbirleri ile veya diğer web siteleri ile olan bağlantılarının, tasarımını yapan kişi tarafından nasıl düzenlendiğine dair bilgilerdir. Yapı verisi, bir web sayfasının oluşturulmasında kullanılan HTML veya XML etiketleri gibi veri yapıları olabileceği gibi, sayfalar hatta siteler arası bağlantıları sağlayan linkler şeklindeki veri yapıları da olabilir.
  3. Kullanım verisi: Kullanıcıların web kaynaklarına erişimleri sırasında sunucu ya da tarayıcılar tarafından kayıt altına alınan verilerdir.
  4. Kullanıcı profil verisi: Bir web sitesine kayıt olma sürecinde kullanıcılar tarafından sağlanan demografik bilgilerin yanı sıra kullanıcıların ilgi ve tercihlerinden oluşan verilerdir.

WEB Madenciliğinin Sınıflandırılması

Web madenciliği, veri madenciliği ile çok güçlü bir ilişki içerisinde olmasına rağmen farklı bir alandır. Çünkü web madenciliği sürecinde çeşitli kategori ve biçimlerdeki internet verileri farklı alanlarda uygulanan analiz tekniklerinin kombinasyonu teknikler kullanılarak analiz edilirler. Web madenciliği web doküman ve servislerindeki yararlı bilgileri otomatik olarak ayıklamak ve elde etmek için veri madenciliği tekniklerini kullanır. İnternette yer alan bilgiler farklı veri türlerini barındırdıkları için web madenciliği, veri madenciliği sürecinde kullanılan web verilerinin türüne göre Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği şeklinde sınıflandırılır.

Web İçerik Madenciliği: Web içerik madenciliği temel olarak web sayfalarında kullanıcıya sunulan içerik verilerinden yararlı bilginin ortaya çıkarılması, keşfedilmesi olarak tanımlanabilir. İçerik verileri genellikle metin şeklindeki dokümanların yanı sıra tablo, şekil, resim, grafik, ses ve videolardır. Metin şeklinde sunulan içeriğin analizi metin madenciliği olarak adlandırılır ve günümüzde en çok araştırılan web içerik madenciliği alanlarından birisidir. Resim, ses ve görüntü vb. gibi kaynaklardan yararlı bilginin çıkarılması ise multimedya madenciliği olarak ifade edilmektedir. Bu alanda da başta görüntü işleme olmak üzere birçok teknik geliştirilmektedir.

Web Yapı Madenciliği: Web yapı madenciliği, web sitesinin yapısal özetini yani kendi içerisindeki sayfalarla ve diğer sitelerle olan bağlantı yapılarını elde ederek, bu yapılardan yararlı bilginin ortaya çıkarılması olarak tanımlanabilir. Bu sayede web sayfaları sınıflandırılabilir ve farklı web siteleri arasındaki benzerlik ve ilişkiler ortaya çıkarılabilir. Böylece web sitelerinin verimlilik ve kullanışlılık değerlendirmeleri yapılabilir. Web yapı madenciliği ile internet ortamında birçok insan tarafından başvurulan ve alanında otorite olarak nitelendirilen önemli web sayfaları da belirlenebilmektedir.

Web Kullanım Madenciliği: İnternette herhangi bir kaynağa erişim sağlandığında tarayıcı veya sunucular tarafından bir takım veriler kayıt altına alınır. Bunlar sunucular tarafından depolanan kullanıcı erişim kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare tıklamaları, sayfa kaydırmaları, sayfa içerik özellikleri vb. gibi kayıtlardır. Web kullanım madenciliği, kullanıcıdan elde edilen bu bilgiler aracılığı ile kullanıcıların internet gezinme alışkanlıklarını analiz ederek kişiye özel modeller oluşturmayı amaçlar.

Sosyal Medya Madenciliği

Geniş bir açıdan ele alındığında web madenciliği, web içerisinde yer alan tüm bilgi ve belgelerin belirli bir amaç için taranarak sınıflandırılması işlemlerini kapsamaktadır. Son yıllarda hızla artış gösteren bir internet kullanım biçimi ise sosyal medya kullanımıdır. Sosyal ağ hizmetleri olarak da adlandırılan sosyal medya, insanların birbirleriyle daha kolay etkileşim, iletişim ve paylaşımda bulunmalarını, kısaca sosyal ilişkiler kurmalarını sağlayan internet tabanlı uygulamaları kapsayan bir platform olarak tanımlanabilir.

  1. Sosyal medya olarak adlandırılan tüm bu hizmetler izleyen ortak özelliklere sahiptir.
  2. Sosyal medya hizmetleri, (günümüz koşullarında) Web 2.0 internet tabanlı uygulamalardır.
  3. Sosyal medya hizmetleri, kullanıcı tarafından oluşturulan ve değiştirilebilen bir içeriğe sahiptir.
  4. Sosyal medya hizmetlerinde, site veya uygulama için güvenliği, tasarımı ve bakımı hizmet sağlayıcı tarafından sağlanan bireysel veya grup profilleri oluşturulabilir.
  5. Sosyal medya hizmetleri, bir kullanıcı ile diğer kullanıcılar ve/veya gruplar arasında bağlantılar kurarak çevrim içi sosyal ağlar oluşturulmasını kolaylaştırır.

Günümüzde insanlar birçok nedenden dolayı sosyal medyayı kullanmaktadır. Etkin bir şekilde kullanılmakta olan sosyal medya hizmetlerinin hangi amaçlar için kullanıldığını belirleyebilmek için insanların birbirleriyle çevrim içi etkileşim nedenlerini tüm yönleriyle ele almak gerekir. Dolayısıyla günümüzde kullanılmakta olan sosyal medya hizmetlerini temel olarak izleyen biçimde sınıflandırmak mümkündür.

  1. Genel amaçlı veya arkadaş tabanlı: Bu hizmetler belirli bir konu üzerine odaklanmayan arkadaşlık temeline dayanan paylaşım hizmetleridir.
  2. Bilgilendirici: Bu hizmetlerin amacı günlük sorunlara yanıtlar sunmaktır.
  3. Mesleki: Bu hizmetler kariyer veya meslek planlamasında yeni fırsatlar edinmek için kullanılır.
  4. Eğitim: Bu hizmetler öğrencinin deneyimini geliştirmek için kullanılır.
  5. Hobiler: Bu hizmetler aynı şeylere ilgi duyan insanlar için bir buluşma noktasıdır.
  6. Akademik: Bu hizmetler akademik ve bilimsel çalışmalar için güncel bilgi kaynağına erişim sunan hizmetlerdir.
  7. Haberler: Bu hizmetler tüm toplumu ilgilendiren haber yayıncılığına ilişkin hizmetlerdir.

Dolayısıyla bu bölümde sosyal medya hizmetleri içerisinde en çok kullanıcı kitlesine sahip olan uygulamalardan Twitter ve Facebook kullanıcı verilerine nasıl erişilebileceği ve R programı ile temel bazı analizlerinin nasıl gerçekleştirileceğine dair uygulamalara yer verilmiştir. Sosyal medya uygulamalarının bireyler tarafından bu kadar ilgi görmesi, bu konuda hizmet vermekte olan firma sayısını da arttırmaktadır. Her geçen gün sayısı hızlı bir biçimde artmakla beraber hâlen 50’nin üzerinde sosyal medya uygulaması varlığını sürdürmektedir. En çok bilinen ve kullanılan bu sosyal medya uygulamalarından Facebook, WhatsApp, Facebook Messenger, Google Plus, QQ, WeChat, Qzone, Tumblr, Instagram, Twitter, Baidu, Tieba, Skype ve Viber ilk akla gelenler olarak sayılabilir.