Hỏi về phân cụm Kmeans

Chào mọi người, mình đang trong quá trình tìm hiểu phân cụm, mọi người cho mình hỏi input (dataset )của bài toán này là gì ko ? mình cảm ơn nhiều ạ :

Phân cụm và gán nhãn cho cụm được thực hiện trên Nội dung văn bản của trang Web (Văn bản liên kết (văn bản xung quanh và bên trong thẻ a)