Phân phối lệch trái và lệch phải trong thống kê

Phân phối lệch trái và lệch phải trong thống kê là hai hình dạng phân phối xuất hiện rất phổ biến trong dữ liệu thật. Chúng phản ánh sự bất đối xứng của dữ liệu và cho thấy rằng không phải lúc nào giá trị trung bình cũng đại diện tốt cho toàn bộ tập dữ liệu.

Khi làm việc với dữ liệu, việc nhận ra dữ liệu đang lệch trái hay lệch phải quan trọng không kém việc chọn thuật toán. Nó ảnh hưởng trực tiếp đến cách ta diễn giải rủi ro, độ phổ biến và các trường hợp ngoại lệ.

Phân phối lệch phải (Right-skewed distribution)

Phân phối lệch phải là dạng phân phối mà đồ thị có một chiếc đuôi dài ở phía bên phải. Chiếc đuôi này biểu diễn một số ít dữ liệu có giá trị rất lớn. Phần còn lại của đồ thị, nằm về phía bên trái ngoài chiếc đuôi, là nơi đa số các giá trị xuất hiện.

Do có chiếc đuôi kéo dài về phía các giá trị lớn, phân phối lệch phải không đối xứng. Nó cũng không có trung tâm nằm giữa như phân phối chuẩn.

Trong phân phối lệch phải, điều đáng chú ý nhất không phải là nơi phần lớn dữ liệu tập trung. Quan trọng hơn là những giá trị lớn hiếm gặp. Dù số lượng ít, chúng lại có ảnh hưởng rất mạnh đến trung bình và đến cách chúng ta cảm nhận toàn bộ tập dữ liệu.

Có thể gặp phân phối lệch phải ở đâu?

Phân phối lệch phải xuất hiện rất nhiều trong dữ liệu thật, thậm chí nhiều hơn cả phân phối chuẩn. Nếu lấy ngẫu nhiên một tập dữ liệu, khả năng cao nó sẽ lệch phải theo cách nào đó.

Ví dụ Bạn gặp phân phối lệch phải trong thu nhập cá nhân. Vì phần lớn người có mức thu nhập thấp, trong khi chỉ một ít người có thu nhập rất cao. Chính nhóm nhỏ này tạo ra chiếc “đuôi dài” về phía bên phải.

Bạn cũng gặp phân phối lệch phải trong thời gian phản hồi của hệ thống. Hầu hết các request được xử lý nhanh, nhưng có những request mất thời gian rất lâu vì nghẽn mạng, lỗi hệ thống, hoặc tải cao. Những trường hợp hiếm này kéo dài phân phối về phía giá trị lớn.

Lý giải tương tự có thể áp dụng cho rất nhiều hiện tượng khác trong đời sống và dữ liệu:

  1. Thời gian chờ : Nhiều người chờ ít (1–5 phút), nhưng có một số ít phải chờ rất lâu.
  2. Tuổi thọ thiết bị : Hầu hết thiết bị hỏng ở một thời gian ngắn–trung bình, nhưng có một số ít sống cực lâu
  3. Số lượt xem video
  4. Lượng tiền trong tài khoản
  5. Số tai nạn trong 1 ngày
  6. Hóa đơn tiền điện
  7. Số người đến quán…

tất cả thường có rất nhiều giá trị nhỏ và một số rất ít giá trị cực lớn.

Nói cách khác, phân phối lệch phải là hình dạng tự nhiên của thế giới khi sự tăng trưởng không bị giới hạn chặt chẽ ở phía trên, và khi “ít nhưng lớn” có thể xảy ra.

Dùng phân phối lệch phải khi nào?

Bạn nên nghĩ đến phân phối lệch phải khi quan sát dữ liệu và thấy rằng:

  • phần lớn giá trị nằm ở mức thấp hoặc trung bình
  • chỉ có một số ít giá trị rất lớn
  • trung bình lớn hơn trung vị một cách rõ rệt

Phân phối lệch phải đặc biệt phù hợp khi dữ liệu đại diện cho thời gian, chi phí, quy mô, mức độ phổ biến, hoặc bất kỳ đại lượng nào mà việc “rất lớn” là hiếm nhưng hoàn toàn có thể xảy ra.

Trong những trường hợp này, nếu bạn cố ép dữ liệu vào phân phối chuẩn, bạn sẽ thường đánh giá thấp xác suất của các giá trị lớn, và từ đó đưa ra những nhận định quá lạc quan.

Ví dụ dữ liệu

Hãy tưởng tượng bạn đo thời gian chờ của khách hàng trong một hệ thống trực tuyến. Phần lớn người dùng chỉ phải chờ vài giây để nhận kết quả. Một số ít phải chờ lâu hơn khi hệ thống bận. Và rất hiếm khi có người phải chờ cực lâu do sự cố bất thường.

Nếu vẽ histogram của thời gian chờ, bạn sẽ thấy một cụm lớn ở phía thời gian ngắn. Đồng thời, một chiếc đuôi kéo dài về phía thời gian dài cũng xuất hiện. Đây chính là hình ảnh điển hình của phân phối lệch phải.

Code Python và đồ thị

import numpy as np
import matplotlib.pyplot as plt

# Ví dụ: dữ liệu lệch phải bằng phân phối log-normal
samples = np.random.exponential(scale=1, size=20000)
plt.hist(samples, bins=50, density=True)
plt.title("Phân phối lệch phải")
plt.xlabel("Giá trị")
plt.ylabel("Mật độ")
plt.show()

Đặc điểm thấy rõ trên biểu đồ:

  • Đỉnh nằm bên trái
  • Đuôi kéo dài về bên phải
  • Nhiều giá trị nhỏ, ít giá trị rất lớn

Phân phối lệch trái (Left-skewed distribution)

Phân phối lệch trái là dạng phân phối mà đồ thị có một chiếc đuôi dài ở phía bên trái. Chiếc đuôi này biểu diễn một số ít dữ liệu có giá trị rất nhỏ. Phần còn lại của đồ thị, nằm về phía bên phải ngoài chiếc đuôi, là nơi đa số các giá trị xuất hiện.

Do có chiếc đuôi kéo dài về phía các giá trị nhỏ, phân phối lệch trái không đối xứng. Nó cũng không có trung tâm nằm giữa như phân phối chuẩn.

Trong phân phối lệch trái, điều quan trọng không nằm ở nơi phần lớn dữ liệu tập trung. Điều đáng chú ý hơn là những giá trị nhỏ hiếm gặp. Dù số lượng ít, chúng lại ảnh hưởng mạnh đến trung bình và cách ta nhìn nhận toàn bộ tập dữ liệu.

Có thể gặp phân phối lệch trái ở đâu?

So với phân phối lệch phải, phân phối lệch trái ít gặp hơn trong dữ liệu tự nhiên. Tuy nhiên, nó xuất hiện khá rõ trong những bối cảnh mà giá trị bị chặn ở phía trên.

Một ví dụ quen thuộc là điểm số của một bài kiểm tra dễ. Phần lớn người làm bài đạt điểm cao và tập trung gần mức tối đa. Chỉ có một số ít người làm sai nhiều câu. Chính nhóm này tạo ra chiếc “đuôi dài” về phía điểm thấp.

Bạn cũng có thể gặp phân phối lệch trái trong chất lượng dịch vụ hoặc hiệu suất hệ thống khi hệ thống đã được tối ưu tốt. Hầu hết thời gian, hệ thống hoạt động ổn định ở mức cao. Chỉ trong một số ít trường hợp bất thường, hiệu suất mới giảm mạnh.

Các ví dụ khác của phân phối lệch trái bao gồm:

  • Điểm thi của bài kiểm tra dễ: đa số điểm cao, số ít điểm rất thấp
  • Độ chính xác của mô hình sau huấn luyện
  • Mức độ hài lòng của khách hàng: phần lớn hài lòng, một số rất không hài lòng
  • Tỉ lệ hoàn thành công việc đúng hạn: đa số hoàn thành, số ít thì không
  • Chất lượng sản phẩm trong quy trình đã ổn định
  • Điểm đánh giá ứng dụng: đa số 4–5 sao, số ít 1 sao

Những trường hợp này đều có điểm chung. Chúng có rất nhiều giá trị cao và chỉ một số rất ít giá trị thấp.

Nói cách khác, phân phối lệch trái thường xuất hiện khi thế giới bị “chặn trần”. Khi đó, việc “rất kém” trở thành ngoại lệ.

Dùng phân phối lệch trái khi nào?

Bạn nên nghĩ đến phân phối lệch trái khi quan sát dữ liệu và thấy rằng:

  • phần lớn giá trị nằm ở mức cao
  • chỉ có một số ít giá trị rất nhỏ
  • trung bình nhỏ hơn trung vị một cách rõ rệt

Phân phối lệch trái phù hợp với dữ liệu về chất lượng, điểm số, hiệu suất và mức độ hoàn thành. Nếu giả định dữ liệu tuân theo phân phối chuẩn trong các trường hợp này, bạn có thể đánh giá quá cao tần suất của các giá trị thấp.

Trong những trường hợp này, nếu bạn giả định dữ liệu tuân theo phân phối chuẩn, bạn có thể đánh giá quá cao tần suất của các giá trị thấp, và từ đó đưa ra những kết luận không phù hợp với thực tế.

Ví dụ dữ liệu

Hãy tưởng tượng bạn thu thập điểm số của một bài kiểm tra khá dễ. Phần lớn người học đạt điểm cao. Chỉ có một số ít người không theo kịp hoặc mắc nhiều lỗi.

Histogram của tập điểm này sẽ có một cụm lớn ở phía điểm cao. Đồng thời, một chiếc đuôi kéo dài về phía điểm thấp cũng xuất hiện. Đây là hình ảnh điển hình của phân phối lệch trái.

Code Python và đồ thị phân phối lệch trái

import numpy as np
import matplotlib.pyplot as plt

# Ví dụ: tạo dữ liệu lệch trái bằng cách đảo phân phối mũ
samples = 100 - np.random.exponential(scale=5, size=20000)

plt.hist(samples, bins=50, density=True)
plt.title("Phân phối lệch trái")
plt.xlabel("Giá trị")
plt.ylabel("Mật độ")
plt.show()

Đặc điểm thấy rõ trên biểu đồ:

  • Đỉnh nằm bên phải
  • Đuôi kéo dài về bên trái
  • Nhiều giá trị lớn, ít giá trị rất nhỏ

Kết luận

Phân phối lệch trái và lệch phải trong thống kê cho thấy dữ liệu ngoài đời thường không đối xứng. Việc nhận ra dữ liệu đang lệch về phía nào giúp bạn hiểu đúng trung bình, rủi ro và các trường hợp ngoại lệ.

Thay vì vội vàng áp dụng phân phối chuẩn, bạn nên nhìn vào hình dạng dữ liệu trước. Chỉ riêng việc phân biệt lệch trái hay lệch phải đã giúp bạn tránh được nhiều sai lầm trong phân tích.

Ngoài hai loại phân phối lệch trái và lệch phải trong thống kê , bạn sẽ còn hặp dữ liệu không chỉ lệch mà còn gắn với thời gian chờ , quá trình vận hành. Trong bài tiếp theo, chúng ta sẽ tìm hiểu phân phối mũ và phân phối Gamma, hai phân phối gắn chặt với cách hệ thống vận hành theo thời gian.