Các loại phân phối trong thống kê

Các loại phân phối trong thống kê là thứ bạn sẽ gặp ở hầu hết mọi bộ dữ liệu. Dù bạn đang phân tích điểm thi, thu nhập, thời gian chờ hay dữ liệu tài chính, phân phối luôn xuất hiện.

Tuy vậy, rất nhiều người lại hỏi ngay từ đầu: “Nên dùng phân phối nào cho dữ liệu này?”. Câu hỏi nghe có vẻ hợp lý, nhưng thường đến quá sớm.

Trước khi quan tâm đến tên gọi hay công thức, điều quan trọng hơn là hiểu phân phối là gì. Bạn cũng cần biết vì sao nó luôn xuất hiện trong dữ liệu thực tế.

Bài viết này giúp bạn có một bức tranh tổng thể về các loại phân phối trong thống kê. Nội dung được trình bày theo cách dễ đọc, tập trung vào tư duy nhìn dữ liệu. Không có công thức và cũng không nặng lý thuyết.

Phân phối trong thống kê là gì?

Hãy tưởng tượng bạn thu thập một tập dữ liệu gồm rất nhiều con số. Đó có thể là điểm thi, thu nhập, thời gian chờ, giá cổ phiếu hoặc chi phí vận hành.

Những con số này không nằm rải rác một cách ngẫu nhiên. Thông thường, chúng có xu hướng tụ lại ở một số vùng nhất định. Ở những vùng khác, dữ liệu sẽ thưa dần.

Phân phối chính là cách dữ liệu trải ra. Nó cho bạn biết giá trị nào xuất hiện nhiều và giá trị nào hiếm. Đồng thời, bạn cũng thấy được dữ liệu có cân đối hay bị lệch về một phía.

Nói ngắn gọn, phân phối mô tả hình dạng của dữ liệu khi bạn nhìn toàn bộ tập số liệu cùng lúc.

Đó cũng là lý do vì sao histogram thường mang lại nhiều thông tin hơn một con số trung bình.

Trung bình chỉ cho bạn một điểm đại diện. Trong khi đó, phân phối cho bạn thấy toàn cảnh. Hai tập dữ liệu có thể có cùng trung bình, nhưng ý nghĩa hoàn toàn khác nhau nếu hình dạng phân phối khác nhau.

Các loại phân phối trong thống kê thường gặp

Khi quan sát đủ nhiều dữ liệu, bạn sẽ nhận ra các histogram thường hay xuất hiện. Từ đó, người ta đặt tên cho các loại phân phối để mô tả dữ liệu rõ ràng hơn.

Với phân phối đều, dữ liệu được trải khá đều, không có ưu tiên gì. Dạng này thường xuất hiện trong tạo dữ liệu ngẫu nhiên có kiểm soát.  

Nếu histogram xuất hiện nhiều đỉnh thì thường là do dữ liệu đến từ nhiều nhóm khác nhau hoặc nhiều cơ chế sinh dữ liệu. Phân phối đa đỉnh xuất hiện khi phân tích dữ liệu chưa được phân nhóm đúng cách. Chi tiết mời xem bài Phân phối đều và phân phối đa đỉnh trong thống kê.

Phân phối lệch phải rất phổ biến trong thực tế. Phần lớn giá trị nằm ở mức thấp hoặc trung bình, trong khi một số ít giá trị rất lớn kéo đuôi phân phối về bên phải. Thu nhập, chi phí hay thời gian hoàn thành công việc thường có dạng này. Ngược lại, phân phối lệch trái xảy ra khi dữ liệu dồn về phía các giá trị cao và đuôi kéo dài về phía thấp. Dạng này ít gặp hơn nhưng vẫn xuất hiện trong các bài toán có giới hạn trên rõ ràng. Nội dung này được phân tích kỹ hơn trong bài Phân phối lệch trái và phân phối lệch phải trong thống kê.

Trong kinh tế và tài chính, phân phối log-normal thường xuất hiện. Khi giá trị tăng trưởng theo tỉ lệ phần trăm thay vì cộng dồn, dữ liệu tự nhiên sẽ bị lệch phải mạnh. Bạn đọc thêm trong bài phân phối log-normal trong thống kê nhé

Vì sao lại có nhiều loại phân phối?

Lý do không nằm ở toán học thuần túy. Nó nằm ở cơ chế sinh dữ liệu.

Mỗi loại dữ liệu được tạo ra theo một cách khác nhau. Khi đó, hình dạng phân phối cũng sẽ khác nhau.

Thời gian chờ cho một sự kiện xảy ra có đặc tính rất khác so với tổng của nhiều lần chờ liên tiếp. Giá cổ phiếu tăng trưởng theo tỉ lệ cũng khác với chi phí được cộng dồn từng phần.

Khi cơ chế sinh dữ liệu khác nhau, việc xuất hiện nhiều loại phân phối là điều tất yếu.

Vì vậy, thay vì cố ghi nhớ tên phân phối, cách tiếp cận tốt hơn là tự hỏi: dữ liệu này được sinh ra như thế nào?

Khi trả lời được câu hỏi đó, tên phân phối thường sẽ tự nhiên xuất hiện.

Kết luận

Hiểu phân phối là để không bị dữ liệu đánh lừa. Trước khi áp dụng mô hình, trước khi so sánh trung bình hay đưa ra kết luận, việc nhìn vào phân phối giúp bạn tránh rất nhiều sai lầm phổ biến.

Bài viết này cung cấp cái nhìn tổng quan về các loại phân phối trong thống kê. Chi tiết hơn, bạn có thể xem các liên kết phía dưới. Ở đó, mỗi loại phân phối sẽ được phân tích sâu hơn. Nội dung gắn chặt với dữ liệu thực tế và cách sử dụng trong phân tích.

Nếu bạn đã quen nhìn histogram và biết cách đặt câu hỏi đúng về dữ liệu, bạn đã đi trước rất nhiều người rồi.