Hiyerarşik kümeleme veri madenciliğinde örüntü tanıma makine öğrenmesi pazarlama ve müşteri yönetimi gen keşfi ilaç tasarımı gibi birçok fen sosyal ve yaşambilimleri alanında en yaygın kullanılan keşifçi ya da açınsal istatistiksel analizdir. Çoğu kez analiz öncesi belli bir küme sayısı (k parametresi) ve küme merkezleri için başlatma değerleri istememesi gibi önemli avantajlar sunması nedeniyle K-ortalamalar ve K-ortancalar gibi yine yaygın olarak kullanılan hiyerarşik olmayan yöntemlere göre tercih edilmektedir. Analiz için ihtiyaç duyulan yegâne şey veri öğeleri arasındaki benzerlik ölçüsü olduğundan uygulanması kolay bulunmaktadır.
R istatistik ve grafik analiz için güçlü bir hesaplama ortamı ve programlama dilidir. R projesi kapsamında GNU lisansı ile dağıtılan açık kaynak ve özgür yazılım olması yeni algoritmaları geliştirmek ve test etmek için etkin ve kolay bir programlama ortamı sunması nedeniyle istatistik matematik bilgisayar bilimleri ve biyoinformatik gibi alanlarda hızla popüler olmasını sağlamıştır. Dünya genelinde hemen her kuramsal ve uygulamalı alanda çalışan araştırmacılar veri analizcileri ve öğrenciler tarafından yaygın şekilde kullanılmaktadır. Günümüzde R için çok çeşitli alanlarda çalışan araştırmacılar tarafından geliştirilmiş 16000'e yaklaşan sayıda R paketi bulunmakta olup CRAN BioConductor ve Github üzerinden dağıtılmaktadır.
Bu kitap veri madenciliğinde ya da bilgi keşfinde önemli bir açınsal istatistik aracı olarak hiyerarşik kümeleme analizine yöntemler R ile uygulamalar ve bazı gerçek veri kümeleri üzerinde analiz örnekleriyle kapsamlı bir bakış sağlamaktadır.
Bu kitap daha önce R ile çalışmamış olanların birkaç gün içinde ileri düzeyde kümeleme analizi yapmalarını sağlayacak bir yaklaşımla yazılmıştır. Kitap hem veri madenciliği ve istatistik konulu dersler için bir uygulama rehberi hem de biyoteknoloji ve biyoinformatik bilim dallarında çalışan araştırmacılar için bir başvuru eseri olacak şekilde tasarlanmıştır.