Biểu đồ thống kê trong AI: Cách đọc “ngôn ngữ của dữ liệu”

Biểu đồ thống kê trong AI là công cụ trình bày dữ liệu, cũng là cách giúp chúng ta đọc và hiểu bản chất của dữ liệu trước khi xây dựng mô hình. Khi dùng đúng biểu đồ, ta có thể nhanh chóng nhận ra phân phối, xu hướng, sự khác biệt giữa các nhóm và cả những điểm ngoại lai quan trọng.

Trong bài này, chúng ta sẽ tìm hiểu bốn loại biểu đồ nền tảng gồm Histogram, Box Plot, Line Chart và Bar Chart để thấy mỗi biểu đồ hỗ trợ phân tích dữ liệu trong AI theo một cách riêng. Nội dung này bám sát trọng tâm bài: phân phối, ngoại lai, xu hướng và so sánh.

bieu-do-thong-ke-trong-ai

1. Histogram – “Vua của phân phối”

Khi làm việc với dữ liệu số liên tục, câu hỏi đầu tiên luôn là:

  • Dữ liệu tập trung ở đâu?
  • Có bị lệch không?
  • Có nhiều nhóm khác nhau không?

Đây chính là lúc Histogram phát huy sức mạnh.

Histogram hoạt động bằng cách chia dữ liệu thành các khoảng (bins), sau đó đếm xem có bao nhiêu điểm dữ liệu rơi vào mỗi khoảng. Kết quả là một chuỗi các cột liền nhau, trong đó chiều cao thể hiện tần suất xuất hiện.

Điểm quan trọng là các cột phải liền nhau, vì dữ liệu là liên tục, không phải rời rạc.

Nghệ thuật chọn số “bins”

Khi vẽ biểu đồ histogram, cần chọn số bins hợp lý để dễ quan sát.

  • Nếu chọn số bins quá nhỏ sẽ mất chi tiết (underfitting). Biểu đồ bị quá thô, che mất cấu trúc phân phối thật của dữ liệu.
  • Nếu chọn số bins quá lớn sẽ bị nhiễu, khó đọc (overfitting). biểu đồ lởm chởm, nhiều nhiễu, khó nhìn ra xu hướng chung.

Không có con số “chuẩn”, nhưng một quy tắc thường dùng là: Số bins ≈ √n (n là số lượng dữ liệu). Điều quan trọng là phải thử nghiệm và quan sát, không nên cố định một giá trị.

Sau đây là minh họa 3 hình: số bins quá nhỏ, vừa, quá lớn

Đọc vị dữ liệu qua Histogram

Histogram cho chúng ta hiểu bản chất dữ liệu:

  • Hình dáng: Đối xứng hay lệch?
  • Độ tập trung: Dữ liệu tụm lại hay tản ra?
  • Đỉnh (Mode): Có 1 đỉnh (Unimodal) hay 2 đỉnh (Bimodal)?

Dữ liệu có phân phối đối xứng:

  • Dữ liệu ổn định, không bị lệch, tập trung nhiều ở giữa
  • Hai bên trái – phải gần như cân bằng
  • Giá trị trung bình mean ≈ giá trị trung vị
  • Phù hợp với nhiều mô hình AI truyền thống
  • Thường gặp trong: chiều cao, sai số đo, điểm thi đề vừa sức

Phân phối lệch phải : 

  • Dữ liệu bị lệch không cân bằng.
  • Nhiều giá trị nhỏ, ít giá trị lớn.
  • Một số giá trị lớn “kéo” trung bình lên.
  • Giá trị trung bình Mean > Giá trị trung vị Median.
  • Đuôi phân phối kéo dài về bên phải.
  • Thường gặp trong thu nhập cá nhân, giá nhà, tuổi thọ thiết bị, số lượng xem video youtube, số tai nạn trong ngày, số người đến quán…

Dữ liệu có phân phối lệch trái :

  • Dữ liệu bị lệch không cân bằng.
  • Nhiều giá trị lớn, ít giá trị nhỏ.
  • Một số giá trị nhỏ “kéo” trung bình xuống.
  • Giá trị trung bình Mean < Giá trị trung vị Median.
  • Đuôi phân phối kéo dài về bên trái.
  • Thường gặp trong điểm thi đề dễ, điểm chất lượng dịch vụ, hiệu suất hệ thống, mức độ hài lòng khách hàng, tỷ lệ hoàn thành công việc đúng hạn của nhân viên…

Một đỉnh vs Hai đỉnh

  • Unimodal: dữ liệu đến từ một nhóm
  • Dữ liệu đến từ một nhóm chính
  • Phân phối tương đối đồng nhất
  • Bimodal: có thể là hai nhóm trộn lẫn
  • Dữ liệu có thể là sự trộn của nhiều nhóm
  • Nếu dữ liệu có hai đỉnh, không nên dùng trung bình để đại diện → cần phải tách nhóm để phân tích

Dữ liệu tụm lại

  • Các cột tập trung trong phạm vi hẹp
  • Histogram “thon gọn”

Ý nghĩa:

  • Biến động nhỏ, dữ liệu ổn định
  • Các quan sát khá đồng đều
  • Phù hợp khi cần tính ổn định (chất lượng, hiệu suất)

Dữ liệu tản ra:

  • Các cột tản rộng trên trục X
  • Histogram không “thon gọn” mà bè ngang

Ý nghĩa:

  • Dữ liệu biến động lớn
  • Có sự khác biệt rõ giữa các quan sát
  • Cần kiểm tra thêm nguyên nhân: có nhiều nhóm không, có outlier không…

 2. Box Plot – Công cụ phát hiện ngoại lai

Trong các loại biểu đồ thống kê trong AI, nếu histogram giúp hiểu “hình dáng tổng thể”, thì box plot giúp ta nhìn nhanh cấu trúc dữ liệu và phát hiện outlier.

Box plot tóm tắt dữ liệu bằng 5 giá trị: Min, Q1 (25%) , Median (50%) , Q3 (75%), Max.

Phần ‘hộp’ chứa 50% dữ liệu trung tâm, còn ‘râu’ thường biểu diễn phạm vi dữ liệu không bị xem là ngoại lai theo quy tắc IQR.

IQR – Chìa khóa của Box Plot

IQR (Interquartile Range) được tính bằng  Q3 − Q1

Đây là khoảng chứa 50% dữ liệu ở giữa và ít bị ảnh hưởng bởi giá trị cực đoan.

Xác định outliers

Để xác định outlier, ta dùng quy tắc:

  • Ngưỡng dưới: Q1 − 1.5 × IQR
  • Ngưỡng trên: Q3 + 1.5 × IQR

Các điểm nằm ngoài khoảng này được xem là ngoại lai.

Đọc thông tin trong Box Plot như thế nào?

Một box plot đơn giản nhưng chứa rất nhiều thông tin:

 Vị trí median

  • Nằm gần giữa hộp → dữ liệu có xu hướng đối xứng
  • Lệch về một phía → dữ liệu bị skew

Độ dài hộp

  • Hộp ngắn → dữ liệu ổn định
  • Hộp dài → biến động lớn

Outliers

Những điểm nằm ngoài “râu” không phải lúc nào cũng là lỗi. Chúng có thể là:

  • Gian lận (fraud detection)
  • Khách hàng VIP
  • Hiện tượng hiếm nhưng quan trọng

Một nguyên tắc quan trọng: Không được xóa outlier một cách tùy tiện.

Trong AI, Box Plot thường dùng để phát hiện giá trị bất thường trong dữ liệu đầu vào trước khi huấn luyện mô hình. Outlier có thể là lỗi nhập liệu, nhưng cũng có thể là tín hiệu quan trọng như giao dịch gian lận, hành vi hiếm hoặc trường hợp bất thường cần dự đoán.

 3. Line Chart – Kể câu chuyện theo thời gian

Khi dữ liệu có yếu tố thời gian, biểu đồ phù hợp nhất là line chart.

Khác với các biểu đồ khác, line chart không chỉ cho thấy giá trị, mà còn cho thấy sự thay đổi liên tục theo thời gian.

Vẽ Line Chart đúng cách

  • Thể hiện trục X – thời gian sai:  Trục X phải là thời gian liên tục và đúng thứ tự. Không được đảo lộn mốc thời gian. Khoảng cách phải phản ánh thời gian thực. Ví dụ hình sau: khi trục X thời gian đảo lộn, biểu đồ sai ngay lập tức.
  • Thể hiện trục Y không phù hợp dữ liệu: Nếutrục Y quá hẹp thì biến động sẽ bị phóng đại, còn nếu trục Y quá rộng thì biến động sẽ bị làm mờ.  Chẳng hạn có dữ liệu: Tháng 1: 100 , Tháng 2: 102 , Tháng 3: 104 , Tháng 4: 103  è Biến động thực ra rất nhỏ. Nếu vẽ trục Y từ 100 đến 104 thì đường sẽ trông dốc mạnh, người xem dễ tưởng là thay đổi lớn.  Nếu vẽ trục Y từ 0 đến 500 thì đường sẽ gần như phẳng, người xem lại tưởng là hầu như không thay đổi gì.
  • Thể hiện trục Y không hợp lý khi so sánh : Nếu đang so sánh nhiều biểu đồ với nhau, nên giữ cùng thang đo trục Y. Ví dụ: Biểu đồ A: trục Y từ 0 đến 100 . Biểu đồ B: trục Y từ 40 đến 60. Thì B có thể trông biến động mạnh hơn A, dù thực tế chưa chắc vậy.

Hiểu Trend – Xu hướng dài hạn

Trend là hướng đi tổng thể của dữ liệu. Có ba dạng chính là tăng, giảm, đi ngang (ổn định).

Trend giúp ta hiểu bức tranh lớn của dữ liệu. Như phát hiện số lượng người dùng của ứng dụng tăng dần qua 12 tháng, hay doanh thu của một cửa hàng giảm dần trong 2 năm, hoặc nhiệt độ trung bình có xu hướng tăng theo mùa hè.

Seasonality – Tính mùa vụ

Seasonality là một kiểu lặp lại có quy luật. Như doanh số tăng mạnh vào dịp Tết hoặc Noel, lượng truy cập website cao hơn vào buổi tối, số đơn hàng tăng vào cuối tuần, nhu cầu điện tăng vào mùa nóng. Du lịch cao điểm mùa hè…

Noise – Nhiễu

Nhiễu là dữ liệu mang tính ngẫu nhiên, nhỏ, không kéo dài, không theo quy luật rõ ràng. Như hôm nay số người truy cập website giảm nhẹ do mạng chậm, cảm biến đo nhiệt độ bị lệch một chút, doanh thu một ngày thấp hơn bình thường do mưa lớn.

Bất thường

Bất thường là những sự cố, gian lận hoặc hành vi không bình thường. Như doanh thu đột ngột tăng vọt do 1 chương trình khuyến mãi, lưu lượng hệ thống tăng bất thường vì bị tấn công, số ca bệnh tăng mạnh trong một giai đoạn đặc biệt, cảm biến ghi nhận giá trị rất khác bình thường do lỗi thiết bị.

Phân biệt trend, seasonality, noise

Hiểu đơn giản trend là xu hướng chính, seasonality là mẫu lặp lại, noise là phần dao động linh tinh xung quanh hai yếu tố đó. Bất thường: những điểm tăng giảm đột ngột.

Ví dụ

  • Đường dữ liệu có xu hướng tăng dần theo thời gian → trend
  • Dữ liệu có các nhịp lên xuống lặp lại → seasonality
  • Các dao động nhỏ quanh xu hướng chính → noise

Điểm được đánh dấu X là điểm bất thường theo thời gian → anomaly

4. Bar Chart – So sánh giữa các nhóm

Khi dữ liệu là dạng phân loại (categorical), biểu đồ thống kê trong AI phù hợp nhất là bar chart. Nó giúp trả lời: Nhóm nào lớn hơn? Nhóm nào nổi bật?

Điểm quan trọng: Mắt người so sánh chiều dài tốt hơn diện tích → bar chart dễ hiểu hơn pie chart trong nhiều trường hợp.

Các biến thể của Bar Chart

  • Dọc: ít nhóm, nhãn ngắn
  • Ngang: nhiều nhóm, nhãn dài
  • Stacked: xem cơ cấu thành phần, nghĩa là biết tổng của mỗi nhóm, và biết bên trong tổng đó gồm những phần nào.

Nguyên tắc trình bày

Một biểu đồ tốt không chỉ đúng, mà còn phải dễ hiểu:

  • Sắp xếp cột theo thứ tự tăng/giảm
  • Làm nổi bật nhóm quan trọng
  • Tránh gây nhiễu thị giác

Tóm tắt:  Biểu đồ thống kê trong AI là công cụ chẩn đoán dữ liệu

Có thể xem biểu đồ thống kê trong AI như công cụ chẩn đoán dữ liệu. Mỗi loại biểu đồ giống như một “công cụ y khoa”:

  • Histogram → phân tích , chẩn đoán phân phối
  • Box plot → phát hiện bất thường
  • Line chart → theo dõi diễn biến
  • Bar chart → so sánh nhóm

Và quy tắc chọn biểu đồ rất đơn giản:

  • Xem phân phối → Histogram
  • So sánh nhóm → Bar chart
  • Theo thời gian → Line chart
  • Tìm outlier → Box plot

Kết luận

Tóm lại, biểu đồ thống kê trong AI là bước rất quan trọng để hiểu dữ liệu trước khi đưa dữ liệu vào mô hình. Khi đọc được phân phối, phát hiện outlier, nhận diện xu hướng và so sánh đúng giữa các nhóm, chúng ta sẽ có nền tảng tốt hơn để làm sạch dữ liệu, chọn hướng phân tích và xây dựng mô hình hiệu quả hơn. Nói cách khác, một mô hình tốt luôn bắt đầu từ việc hiểu dữ liệu bằng biểu đồ