Phân phối chuẩn từ đời sống đến AI

Phân phối chuẩn từ đời sống đến AI là một cách rất tự nhiên để chúng ta hiểu thế giới xung quanh thông qua xác suất. Trước khi xuất hiện trong các mô hình học máy hay thuật toán AI, phân phối chuẩn đã âm thầm hiện diện trong đời sống. Ta gặp nó trong chiều cao con người, trong sai số đo đạc và trong thời gian di chuyển hằng ngày. Ngay cả cách một trào lưu hình thành rồi dần lắng xuống cũng mang tinh thần đó.

Chính vì bắt nguồn từ đời sống như vậy, phân phối chuẩn mới trở thành một giả định quen thuộc. Khi con người bắt đầu dạy máy học từ dữ liệu, họ mang theo cách nhìn thế giới đã quen thuộc này.

Sự diệu kỳ của hình chuông phân phối chuẩn trong đời sống

Hình chuông và quy luật 68% – 95% – 99,7%

Sự diệu kỳ của phân phối chuẩn không nằm ở công thức. Mà nằm ở hình chuông rất quen thuộc của nó. Hình chuông này mô tả một quy luật đơn giản và lặp đi lặp lại trong đời sống. Đa số các giá trị nằm gần mức trung tâm. Càng đi xa mức đó thì càng hiếm.

Quy luật 68% – 95% – 99,7% giúp ta nhìn rõ hơn điều này. Khoảng 68% dữ liệu tập trung rất gần giá trị trung tâm. Nếu mở rộng phạm vi ra một chút, ta bao phủ tới 95% các trường hợp. Và khi mở rộng hơn nữa, gần như toàn bộ dữ liệu — khoảng 99,7% — vẫn nằm trong một vùng hữu hạn. Phần còn lại là những giá trị ngoại lai, rất hiếm gặp và thường gây chú ý.

Điều đáng nói là quy luật này không chỉ tồn tại trên sách vở, mà xuất hiện rất tự nhiên trong nhiều tình huống quen thuộc quanh ta.

Khi quy luật 68–95–99,7% xuất hiện trong đời sống

Chiều cao con người là ví dụ dễ thấy nhất. Phần lớn mọi người có chiều cao xoay quanh mức trung bình — đó chính là vùng tập trung chính. Một số người thấp hơn hoặc cao hơn một chút, nhưng vẫn không quá khác biệt. Còn những người quá thấp hoặc quá cao so với số đông thì rất hiếm, nằm ở phần đuôi của phân bố.

Sai số đo đạc cũng tuân theo quy luật tương tự. Khi đo cùng một đại lượng nhiều lần, đa số kết quả chỉ lệch rất nhẹ so với giá trị đúng. Một số ít lệch nhiều hơn nhưng vẫn trong mức chấp nhận được. Những sai số quá lớn chỉ xuất hiện rất hiếm và thường là dấu hiệu có vấn đề.
Thời gian di chuyển hằng ngày thường ổn định quanh một khoảng quen thuộc. Có ngày nhanh hơn hoặc chậm hơn một chút, nhưng những ngày kẹt xe nghiêm trọng khiến thời gian tăng vọt là rất ít và vì thế rất dễ nhớ.

Điểm số trong một bài kiểm tra đông người cũng cho thấy hình chuông rõ ràng. Phần lớn bài làm tập trung quanh mức trung bình. Những bài đạt điểm quá cao hoặc quá thấp luôn là số ít, và chính vì hiếm nên chúng trở nên nổi bật.

Thời gian hình thành và suy giảm của một trào lưu cũng mang tinh thần hình chuông. Ít người quan tâm ở giai đoạn đầu, nhiều nhất ở giai đoạn cao trào, rồi giảm dần về sau. Dù không phải lúc nào cũng là phân phối chuẩn hoàn hảo, quy luật “đa số ở giữa, thiểu số ở hai đầu” vẫn xuất hiện rất rõ.

Quy luật hình chuông trở thành mô hình nền tảng

Chính vì liên tục gặp lại quy luật 68% – 95% – 99,7% dưới những hình thức như vậy, phân phối chuẩn trở thành một mô hình nền tảng. Nó không áp đặt thế giới phải tuân theo toán học, mà tóm lược lại cách thế giới thường vận hành: ổn định ở trung tâm, dao động vừa phải xung quanh, và chỉ hiếm khi xuất hiện những điều quá khác thường.

Vì sao phân phối chuẩn được xem là “chuẩn mực” trong nhiều bài toán?

Phân phối chuẩn được dùng nhiều không phải vì nó đúng trong mọi trường hợp, mà vì nó phù hợp với trực giác đánh giá sai lệch của con người. Ta thường nghĩ:

  • lệch một chút thì chấp nhận được,
  • lệch nhiều thì đáng nghi,
  • lệch quá nhiều thì chắc chắn có vấn đề.

Cách suy nghĩ này xuất hiện khắp nơi trong đời sống.

Ví dụ 1: kiểm tra chất lượng sản phẩm. Một sản phẩm nặng nhẹ hơn chuẩn vài gram thường vẫn đạt yêu cầu. Nhưng nếu lệch hàng chục gram, ta nghi ngờ lỗi sản xuất.

Ví dụ 2: tốc độ phản hồi của hệ thống. Một trang web chậm hơn bình thường vài phần giây là chuyện thường. Nhưng nếu mất cả chục giây, ta coi đó là sự cố.

Ví dụ 3: sai sót trong công việc. Gõ nhầm một ký tự là chuyện nhỏ. Nhưng nhầm cả một đoạn dài thì không còn bình thường.

Ví dụ 4: dao động cảm xúc hằng ngày. Tâm trạng lên xuống nhẹ là tự nhiên. Nhưng nếu dao động quá mạnh và kéo dài, ta sẽ chú ý.

Ví dụ 5: kết quả dự báo. Một dự đoán sai lệch nhẹ vẫn có thể chấp nhận. Nhưng sai lệch quá xa thường buộc ta xem lại mô hình.

Phân phối chuẩn gom tất cả những trực giác đó lại thành một khuôn khổ rõ ràng, dễ dùng, và dễ giải thích.

Phân phối chuẩn giúp việc xử lý dữ liệu trở nên dễ dàng hơn như thế nào?

Khi dữ liệu có dạng hình chuông, việc xử lý trở nên nhẹ nhàng hơn rất nhiều, vì ta biết rõ phần nào là phổ biến, phần nào là hiếm.

Tình huống thứ nhất: phát hiện bất thường. Khi theo dõi nhiệt độ, áp suất, hoặc thời gian phản hồi, nếu đa số giá trị nằm trong một khoảng quen thuộc, thì bất kỳ điểm nào nằm quá xa đều đáng được kiểm tra.

Tình huống thứ hai: tập trung vào số đông. Trong nhiều bài toán AI, mục tiêu không phải là xử lý hoàn hảo mọi trường hợp hiếm, mà là hoạt động tốt cho phần lớn tình huống thông thường. Phân phối chuẩn giúp tập trung vào vùng trung tâm đó.

Tình huống thứ ba: đặt ngưỡng ra quyết định. Khi biết 95% dữ liệu nằm trong một khoảng nhất định, ta có thể đặt ngưỡng cảnh báo hợp lý: không quá nhạy để báo động giả, cũng không quá lỏng để bỏ sót vấn đề.

Nhờ vậy, phân phối chuẩn trở thành một công cụ thực tế, chứ không chỉ là khái niệm lý thuyết.

Khi dữ liệu đời sống không còn “hình chuông” nữa

Tuy nhiên, không phải dữ liệu nào cũng phù hợp với hình chuông. Trong nhiều trường hợp, phần đuôi của dữ liệu trở nên rất quan trọng.

Trong phân phối chuẩn, “đuôi” là phần dữ liệu nằm xa trung tâm. Khi nói “đuôi dài”, tức là các giá trị hiếm không chỉ tồn tại, mà còn kéo rất xa và có ảnh hưởng lớn.

Ví dụ 1: thu nhập cá nhân. Đa số người có thu nhập quanh mức trung bình, nhưng một số rất ít người có thu nhập cực cao. Đuôi nằm ở phía thu nhập lớn và kéo dài rất xa.

Ví dụ 2: thời gian chờ trong bệnh viện. Nhiều người chờ trong khoảng ngắn, nhưng một số ít phải chờ rất lâu vì trường hợp đặc biệt. Đuôi nằm ở phía thời gian chờ dài.

Ví dụ 3: lượt xem nội dung trên mạng. Phần lớn nội dung có lượt xem vừa phải, nhưng một số rất ít nội dung lan truyền mạnh và đạt lượt xem khổng lồ. Đuôi nằm ở phía lượt xem lớn.

Ví dụ 4: thiệt hại do sự cố. Hầu hết sự cố gây thiệt hại nhỏ, nhưng thỉnh thoảng có sự cố gây hậu quả rất lớn. Đuôi thể hiện mức độ thiệt hại không bị giới hạn trên.

Ví dụ 5: mức độ hoạt động của người dùng. Đa số người dùng hoạt động ít, nhưng một số rất ít người hoạt động cực kỳ nhiều và chi phối hệ thống. Đuôi nằm ở phía tần suất cao.

Trong những trường hợp này, nếu vẫn áp dụng máy móc phân phối chuẩn, ta sẽ đánh giá thấp vai trò của các giá trị hiếm nhưng quan trọng.

Phân phối chuẩn từ đời sống đến AI: dùng đúng, không phụ thuộc

Hiểu phân phối chuẩn từ đời sống đến AI không phải để áp dụng nó cho mọi dữ liệu. Mục đích là để biết khi nào giả định này còn phản ánh đúng thực tế.

Khi dữ liệu có xu hướng tập trung rõ ràng, phần lớn giá trị dao động quanh một mức trung tâm. Trong trường hợp đó, các giá trị ngoại lệ thường rất hiếm. Phân phối chuẩn vì thế là một lựa chọn hợp lý.

Ngược lại, có những dữ liệu lệch mạnh ngay từ đầu. Có những dữ liệu có đuôi dài hoặc chứa các giá trị hiếm nhưng rất quan trọng. Với những trường hợp như vậy, ta cần cẩn trọng hơn khi giả định hình chuông.

Từ đời sống sang AI: vì sao máy cũng “thích” hình chuông?

Khi con người bắt đầu xây dựng các mô hình AI, họ không bắt đầu từ con số không. Họ mang theo cách mình đã quen hiểu thế giới: phần lớn mọi thứ là bình thường, chỉ một số ít là khác thường. Từ thực tế đời sống, rất nhiều hiện tượng tự nhiên có xu hướng tạo thành hình chuông, nên không ngạc nhiên khi các công cụ AI cũng được xây dựng dựa trên giả định đó.

Nhiều thư viện và hàm quen thuộc trong Python đã âm thầm lấy phân phối chuẩn làm điểm xuất phát, đôi khi mà người dùng không cần để ý.

Trong xử lý dữ liệu và thống kê

Trong xử lý dữ liệu và thống kê, phân phối chuẩn gần như là một chuẩn tham chiếu tự nhiên.

Với thư viện scipy.stats, đây là một trong những phân phối được sử dụng nhiều nhất. Nó thường được dùng để mô phỏng, ước lượng và so sánh dữ liệu. Nhiều phép kiểm tra thống kê được xây dựng trên giả định rằng dữ liệu dao động quanh một giá trị trung tâm. Những sai lệch lớn vì thế được xem là hiếm.

Trong numpy, việc tạo dữ liệu ngẫu nhiên quanh một mức trung tâm thường được thực hiện bằng các hàm sinh số theo phân phối chuẩn. Cách làm này phản ánh một trực giác rất đời. Sai số và nhiễu thường nhỏ và xuất hiện thường xuyên. Những biến động lớn thì ít gặp hơn.

Còn với pandas thì sao? Dù không trực tiếp “gọi tên” phân phối chuẩn, nhiều thao tác quen thuộc vẫn dựa trên cùng một giả định. Phần lớn dữ liệu được xem là bình thường. Chỉ một số ít giá trị là ngoại lệ và cần chú ý.

Ngay cả trong các thư viện trực quan hóa như matplotlib hay seaborn, biểu đồ histogram thường được dùng như bước đầu tiên. Người phân tích nhìn vào đó để quan sát hình dạng dữ liệu. Từ đó, họ tự hỏi liệu dữ liệu có mang dáng dấp hình chuông hay đã lệch theo một hướng khác.

Trong học máy và AI

Khi bước sang học máy và AI, tinh thần của hình chuông vẫn được giữ nguyên.

Trong scikit-learn, nhiều mô hình và phương pháp đánh giá hoạt động hiệu quả khi dữ liệu đầu vào hoặc sai số không quá lệch. Chúng thường tập trung quanh một vùng phổ biến. Việc chuẩn hóa dữ liệu, phát hiện điểm bất thường, hay đánh giá mức độ “xa lạ” của một mẫu mới đều dựa trên việc so sánh nó với phần trung tâm của dữ liệu. Đó chính là phần giữa của hình chuông.

Trong các thư viện AI hiện đại như PyTorch hay TensorFlow, việc tạo nhiễu và khởi tạo các giá trị ban đầu thường bắt đầu từ phân phối chuẩn. Cách làm này cũng được dùng để mô phỏng sự không chắc chắn. Không phải vì dữ liệu thật luôn “đẹp”. Mà vì đây là cách đơn giản và ổn định để mô hình có thể bắt đầu học.

Ở mức độ khái niệm, nhiều ý tưởng trong học máy cổ điển mang tinh thần tương tự. Sai số thường được xem là những dao động nhẹ quanh giá trị đúng. Những sai lệch quá lớn được coi là bất thường và cần chú ý.

Điều đáng chú ý là: AI không giả định phân phối chuẩn vì tin rằng thế giới hoàn hảo. Nó được dùng vì rất hiệu quả và gần với trực giác đời sống của con người. Phân phối chuẩn, vì thế, trở thành một “ngôn ngữ chung”. Nó giúp chuyển những hiểu biết đời thường về dao động và ngoại lệ thành các mô hình mà máy có thể học và tính toán được.

Kết luận

Phân phối chuẩn từ đời sống đến AI tồn tại không phải vì nó hoàn hảo. Nó tồn tại vì mô tả rất tốt cách nhiều hiện tượng tự nhiên và xã hội vận hành. Hình chuông quen thuộc giúp ta hiểu dữ liệu nhanh hơn. Nó cũng giúp xử lý hiệu quả các trường hợp thông thường và xây dựng mô hình khi chưa biết hết mọi thứ.

Giá trị lớn nhất của phân phối chuẩn không chỉ nằm ở việc dùng nó ở khắp nơi. Tuyệt vời hơn khi bạn cũng nhận ra giới hạn những của nó. Khi làm được điều này, bạn không chỉ hiểu thêm một phân phối xác suất. Bạn còn hiểu rõ hơn cách con người và AI cùng nhau đơn giản hóa thế giới phức tạp để học và ra quyết định.