ნორმალიზაცია არის გამოიყენება ზედმეტი მონაცემების აღმოსაფხვრელად და უზრუნველყოფს კარგი ხარისხის კლასტერების გენერირებას, რომლებსაც შეუძლიათ გააუმჯობესონ კლასტერული ალგორითმების ეფექტურობა. ასე რომ, ეს ხდება არსებითი ნაბიჯი ევკლიდეს დისტანციის დაჯგუფებამდე. ძალიან მგრძნობიარეა განსხვავებების ცვლილებების მიმართ[3].
გვჭირდება მონაცემთა ნორმალიზება K-საშუალებების კლასტერიზაციისთვის?
როგორც k-NN მეთოდში, კლასტერიზაციისთვის გამოყენებული მახასიათებლები უნდა გაიზომოს შესადარებელ ერთეულებში. ამ შემთხვევაში, ერთეულები არ არის პრობლემა, რადგან ექვსივე მახასიათებელი გამოიხატება 5-ბალიან შკალაზე. ნორმალიზაცია ან სტანდარტიზაცია არ არის საჭირო.
როგორ ამზადებთ მონაცემებს დაჯგუფებამდე?
მონაცემთა მომზადება
კლასტერული ანალიზის ჩასატარებლად R-ში, ზოგადად, მონაცემები უნდა მომზადდეს შემდეგნაირად: სტრიქონები არის დაკვირვებები (ინდივიდულები) და სვეტები არის ცვლადები. ნებისმიერი გამოტოვებული მნიშვნელობა მონაცემებში უნდა წაიშალოს ან შეფასდეს. მონაცემები უნდა იყოს სტანდარტიზებული (ე.ი. მასშტაბირებული), რათა ცვლადები შესადარებელი გახდეს.
უნდა მოხდეს მონაცემების მასშტაბირება კლასტერიზაციისთვის?
დაჯგუფებისას, თქვენ გამოთვლით მსგავსებას ორ მაგალითს შორის ამ მაგალითებისთვის ყველა მახასიათებლის მონაცემების რიცხვით მნიშვნელობად გაერთიანებით. ფუნქციური მონაცემების გაერთიანება მოითხოვს, რომ მონაცემებს ჰქონდეს იგივე მასშტაბი.
რატომ არის მნიშვნელოვანი ფუნქციების ნორმალიზება კლასტერამდე?
სტანდარტიზაცია მონაცემთა მნიშვნელოვანი ნაბიჯიაწინასწარი დამუშავება.
როგორც ამ ნაშრომშია ახსნილი, k-means ამცირებს შეცდომის ფუნქციას ნიუტონის ალგორითმის გამოყენებით, ანუ გრადიენტზე დაფუძნებული ოპტიმიზაციის ალგორითმი. მონაცემების ნორმალიზება აუმჯობესებს ასეთი ალგორითმების კონვერგენციას.