<aside> 🔗

Link Yotube

https://www.youtube.com/watch?v=ULE78ME1ckQ&t=668s

</aside>

<aside> 📚

1. Khái niệm cơ bản

Machine Learning là gì

Machine Learning là một lĩnh vực giúp máy tính tự học từ dữ liệu mà không cần cấu hình cụ thể. Có nhiều cách phân loại các thuật toán Machine Learning.

Phân loại thuật toán trong Machine Learning

Các thuật toán được phân loại theo phương pháp học thành ba nhóm: học có giám sát, học không giám sát và học tăng cường, trong đó hai nhóm đầu được sử dụng phổ biến nhất.

</aside>

<aside> 🧩

2. Học có giám sát

Dữ liệu có nhãn và không có nhãn

Dữ liệu có nhãn là dữ liệu đã được gán nhãn, còn dữ liệu không có nhãn thì không.

Ví dụ:

Bạn có một tập dữ liệu data ảnh nhưng nhưng không biết ảnh nói về gì → Dữ liệu không có nhãn

Quá trình chuyển đổi dữ liệu không có nhãn thành có nhãn gọi là ghi nhãn dữ liệu(Data Labeling or Data Annotation) Và dữ liệu ảnh cho biết đây là bức ảnh nói về chủ đề gì → Dữ liệu có nhãn

Các loại học có giám sát:

Hồi quy:

Dự đoán giá trị liên tục

Ví dụ:

Các mô hình dự đoán giá nhà, dự đoán nhiệt độ ngoài trời,

Phân loại:

Dự đoán giá trị rời rạc.

Ví dụ: Dự đoán xem một email có phải là spam hay không, dự đoán một người có ung thư hay không,

</aside>

<aside> 🦖

3. Hồi quy tuyến tính

Giới thiệu về hồi quy tuyến tính(Linear Regrestion)

Hồi quy tuyến tính là thuật toán cơ bản trong Machine Learning, dùng để dự đoán giá trị của biến phụ thuộc dựa trên một hay nhiều biến độc lập.

Ví dụ:

Dự đoán lương dựa trên EXP dựa trên số năm kinh nghiệm bằng hồi quy tuyến tính. Mô hình tìm mối quan hệ tuyến tính giữa số năm kinh nghiệm và lương.

Dùng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.

Biến phụ thuộc có thể gọi là biến đích or biến y

Thuật toán sẽ tìm ra mối quan hệ tuyến tính giữa biến x và y bằng cách vẽ ra một đường thẳng tốt nhất đi qua các dư liệu.

Mối quan hệ tuyến tính

Là mối quan hệ bậc 1.

Ví dụ: y = ax + b

Giả sử:

Xây dựng mô hình dự đoán lương dựa trên Lương và EXP

Các chấm xanh sẽ đại diện cho các nhân viên và dựa vào đó sẽ biết được mức lương của họ.

Đường thẳng màu đỏ là kết quả của thuật toán khi huấn luyện model Linear Regresion dựa trên 10 điểm dữ liệu ta có

Đường thằng này là đường thẳng tốt nhất đi qua các điểm dữ liệu vì khoảng cách trung bình giữa các điểm dữ liệu đến đường thẳng này là tối thiểu.

Giả sử mối quan hệ tuyến tính là: Lương = 2M * EXP + 8M

(*) M : triệu vnd

Sau này có nhân viên mới vào công ty với EXP = 3 năm

Suy ra lương = 2*3+8 = 14 M

Khi có nhiều biến độc lập có thể ký hiệu thành x1, x2,.., xn thì thuật toán sẽ thành:

y = a1x1 + a2x2 + a3x3 + … + anxn + b

</aside>

<aside> 🦖

4. Logistic Regresion

Khái niệm Logistic Regression

Định nghĩa:

Giúp phân loại một giá trị đầu vào một trong những nhóm đã được phân loại từ trước.

<aside> ⚠️

Mặc dùng thuật toán này có chữ Regresion nhưng Logistic Regresion lại không được dùng dự đoán giá trị liên tục như là bài toán Linear Regresion

</aside>

Ví dụ:

Xây dựng mô hình dự đoán một nhân viên là Senior hay là Junior thông qua số năm EXP của anh ta

→ Đây là một bài toán phân loại vì đâu ra của bài toán chỉ có 2 giá trị khác nhau đó là:

(Senior) y= 1
(Junior) y = 0

Theo như hình thấy có 5 người là Junior và 6 người là Senior

Giả sử vẫn muốn áp dụng thuật toán này vào trong bài toán thì ta sẽ được đường thẳng màu đỏ như hình dưới:

Đường thẳng này có những vẫn đề như sau:

Không đi qua gần các điểm dữ liệu của chúng ta( Khoảng cách từ các điểm dữ liệu → đường thằng màu đỏ này rất lớn)
Đường thẳng này có thể tạo ra ouput nằm trong giá trị từ âm vô cực đến dương vô cực rất lớn, trong khi ta chỉ muốn kết quả trả về là 0(Junior) hoặc 1(Senior)

Vì vậy cần dùng cách khác đó là dùng Logistic Regresion.

Mục tiêu:

Thay vì vẽ một đường thẳng đi qua các điểm thì ta vẽ một đường cong đi qua các điểm dữ liệu nhiều nhất có thể

Và đường cong này được biểu diễn thông qua một hàm đặc biệt được gọi làm hàm Sigmoid

Hàm sigmoid trong Logistic Regression

Nếu input đầu vào là y, thì output của hàm sigmoid sẽ bằng:

$$ \frac{1}{1+e^{-(y)}} $$

Mà y = ax + b:

$$ \frac{1}{1+e^{-(ax+b)}} $$

Hay nói cách khác:

<aside> 💡

</aside>

Sau khi cho dữ liệu đầu vào đi hàm

$$ y = ax + b $$

Thì dữ liệu sẽ được đi tiếp qua hàm Sigmoid để được kết quả cuối cùng.

Tính chất hàm sigmoid:

Hàm sigmoid là một hàm đặc biệt, bất kể giá trị có nhỏ đến mấy thì kết quả output đầu ra luôn nằm trong khoản từ 0 → 1

Hàm sigmoid chính là cách họ ép giá trị của y ( output của mô hình Linear Regression ) đang trong khoảng âm vô cùng đến dương vô cùng thành khoảng từ 0 → 1

Tuy nhiên kết quả chúng ta cần mô hình đưa ra ouput kết quả là 0 hoặc 1 chứ không phải các số nằm trong khoảng từ 0 → 1( 0.5, 0.78, 0,22, …)

Chính vì vậy họ đặt ra một ngưỡng là giá trị 0.5

Nếu:

output > 0.5 → output = 1
output < 0.5 → output = 0

Ví dụ cụ thể:

Một anh nhân viên trong công ty như điểm khoanh tròn này:

Số năm EXP của anh này sẽ cho đi qua hàm:

$$ y = ax + b $$

Sau đó kết quả bao nhiêu thì tiếp tục cho đi qua hàm sigmoid:

$$ \frac{1}{1+e^{-(ax+b)}} $$

Kết quả: 0.8

</aside>

<aside> 🦖

</aside>

<aside> 🦖

</aside>

<aside> 🦖

</aside>

<aside> 🦖

</aside>

<aside> 🦖

</aside>