Học máy với Python

Chương 1. Tổng quan

Mở đầu

Học máy (machine learning) là dạy cho máy tính biết cách tự thực hiện các công việc.

Các vấn đề quan trọng của học máy là: lựa chọn giải thuật phù hợp đối với từng bài toán, cài đặt chương trình và đánh giá kết quả.

Ví dụ đơn giản về học máy: khi sử dụng thư điện tử (email), hàng ngày bạn hay phải phân loại các thư nhận được theo nhóm. Ví dụ, bạn sẽ phân thành các nhóm: gia đình, bạn bè, công việc. Ngày qua ngày, bạn sẽ thấy chán và thấy mất thời gian. Bạn muốn viết một chương trình để máy tính làm công việc này thay cho bạn. Khi viết chương trình, cách tiếp cận mà mọi người hay nghĩ tới là mô phỏng lại quá trình bộ óc của con người đã làm. Cách này khá phức tạp và không hiệu quả. Cách thứ hai là xây dựng một tập dữ liệu gồm các cặp email/nhãn, đây là các email đã được phân loại, dựa trên tập dữ liệu này, chương trình sẽ tìm ra được tập luật, sau đó, máy tính sẽ áp dụng tập luật này để phân loại tự động cho các email mới. Tập dữ liệu ở đây được gọi là dữ liệu huấn luyện (training data).

Máy học có liên quan nhiều đến lĩnh vực thống kê.

Máy học giúp tìm ra các mối liên hệ, những quy luật từ dữ liệu.

Tài liệu này giúp bạn có cái nhìn tổng quan về một số giải thuật đang được sử dụng phổ biến.

Tuy nhiên, bạn cũng nên biết là, việc cài đặt các giải thuật trong học máy để giải quyết một bài toán không phải là tất cả, mà bên cạnh đó, bạn cần phải thực hiện các công việc khác.

Sau đây là các công việc cần phải thực hiện để giải quyết một bài toán:

Đọc và làm sạch dữ liệu đầu vào.
Khảo sát và hiểu dữ liệu đầu vào.
Biểu diễn dữ liệu đầu vào.
Chọn và cài đặt giải thuật.
Đánh giá kết quả.

Đối với dữ liệu đầu vào, các vấn đề bạn hay gặp phải là: dữ liệu có giá trị không hợp lệ, thiếu dữ liệu. Trong một số trường hợp, việc có quá ít dữ liệu hoặc có quá nhiều dữ liệu đều không tốt cho kết quả thực thi.

Dữ liệu cung cấp cho giải thuật thường là dữ liệu đã được tiền xử lý, rất ít giải thuật có thể sử dụng các dữ liệu chưa qua tiền xử lý.

Dữ liệu được tiền xử lý và tổ chức tốt, cộng với một giải thuật đơn giản, vẫn có thể cho ra kết quả tốt hơn rất nhiều so với một giải thuật phức tạp, nhưng chạy trên bộ dữ liệu được tiền xử lý và tổ chức không tốt.

Việc lựa chọn giải thuật phù hợp cho một bài toán là một vấn đề không đơn giản. Trong nhiều tình huống, bạn buộc phải thỏa hiệp giữa thời gian thực thi và độ chính xác của kết quả.

Cuối cùng, việc đánh giá kết quả của giải thuật cũng rất quan trọng.

Để làm các phần thực hành, bạn cần phải cài đặt ngôn ngữ lập trình Python. Để thực hiện các tính toán bạn sẽ sử dụng các gói NumPy (Numeric Python) và SciPy (Scientific Python). Để hiển thị kết quả một cách trực quan, bạn sẽ sử dụng gói Matplotlib.

Enthought Canopy là gói phần mềm có tích hợp sẵn cả Python, Numpy, Scipy, Matplotlib và một số thứ khác.

Vào địa chỉ sau https://store.enthought.com/downloads/ để tải gói Enthought Canopy về máy.

Nhớ lựa chọn phiên bản cho phù hợp với máy tính của bạn. Xem hình bên dưới.

(Tập tin cài đặt trên website là canopy-1.5.1-win-32.msi. Tuy nhiên, khi tôi dùng IDM để tải về máy, thì IDM tự đổi tên tập tin thành canopy-1.5.1-win-32.exe, chạy tập tin này sẽ bị lỗi. Nếu bạn bị tình trạng tương tự, hãy đổi lại đuôi .exe thành .msi là cài đặt được bình thường).

Làm quen với NumPy

NumPy là viết tắt của Numeric Python, là một gói chương trình hỗ trợ cho các tính toán khoa học bằng ngôn ngữ lập trình Python.

Xem thêm thông tin về Numpy tại đường dẫn: http://www.numpy.org/

Chạy Enthought Canopy\Code Editor, màn hình kết quả:

Nhập lệnh vào cửa sổ Python.

In [3]: import numpy # nạp gói numpy cho python

In [4]: numpy.version.full_version # xem phiên bản

Out[4]: '1.8.1'

Nạp và đặt lại tên tham chiếu cho gói numpy.

In [7]: import numpy as np

Khai báo mảng a, gồm 6 phần tử, với giá trị của các phần tử là: 0, 1, 2, 3, 4, 5.

In [8]: a = np.array([0, 1, 2, 3, 4, 5])

Xem số chiều của mảng a.

In [10]: a.ndim

Out[10]: 1

Xem dạng biểu diễn của mảng a.

In [12]: a.shape

Out[12]: (6,) # 6 hàng

Tạo ma trận hai chiều b từ mảng dữ liệu một chiều a. Ma trận b gồm 3 hàng, 2 cột. Tuy nhiên, giá trị các phần tử của a và b vẫn duy trì sự đồng bộ, nghĩa là b chưa thực sự là một bản sao độc lập của a. Nếu thay đổi giá trị trong b thì giá trị trong a cũng thay đổi, và ngược lại. Đây là đặc tính của numpy giúp hạn chế việc lặp lại của dữ liệu, giúp tiết kiệm bộ nhớ.

In [13]: b = a.reshape((3,2))

In [14]: b

Out[14]:

array([[0, 1],

[2, 3],

[4, 5]])

Xem số chiều và dạng thể hiện của b.

In [15]: b.ndim

Out[15]: 2

In [16]: b.shape

Out[16]: (3, 2)

Thay đổi giá trị một phần tử trong b, ví dụ b[1][0] = 77 (hàng 1, cột 0). Rồi xem kết quả.

In [17]: b[1][0] = 77

In [18]: b

Out[18]:

array([[ 0, 1],

[77, 3],

[ 4, 5]])

Xem lại giá trị của a, thấy rằng a cũng bị thay đổi.

In [19]: a

Out[19]: array([ 0, 1, 77, 3, 4, 5])

Để tạo ra ma trận c, là bản sao thực sự độc lập từ a, sử dụng thêm lệnh copy.

In [20]: c = a.reshape((3,2)).copy()

In [21]: c

Out[21]:

array([[ 0, 1],

[77, 3],

[ 4, 5]])

Đổi giá trị trong ma trận c, phần tử c[0][0] = -99. Xem kết quả.

In [22]: c[0][0] = -99

In [23]: c

Out[23]:

array([[-99, 1],

[ 77, 3],

[ 4, 5]])

In [24]: a

Out[24]: array([ 0, 1, 77, 3, 4, 5])

Numpy cho phép tính toán linh hoạt trên mảng. Ví dụ: nhân tất cả các phần tử của mảng a với 2, hoặc tính bình phương các phần tử.

In [26]: a[2] = 2

In [27]: a

Out[27]: array([0, 1, 2, 3, 4, 5])

In [28]: a*2

Out[28]: array([ 0, 2, 4, 6, 8, 10])

In [29]: a**2

Out[29]: array([ 0, 1, 4, 9, 16, 25])

Chỉ mục trong mảng (indexing)

Cho mảng a gồm 6 phần tử, giá trị của các phần tử là: 1, 2, 87, 3, 4, 5.

In [1]: import numpy as np

In [2]: a = np.array([1,2,87,3,4,5])

In [3]: a

Out[3]: array([ 1, 2, 87, 3, 4, 5])

Để lấy giá trị của một phần tử trong mảng, ta sẽ sử dụng chỉ mục (index) để tham chiếu đến nó.

Ví dụ, muốn lấy giá trị đầu tiên.

In [4]: a[0]

Out[4]: 1

Numpy cho phép sử dụng mảng làm chỉ mục, ví dụ, muốn lấy giá trị của các phần tử thứ 2, 3, 4 trong mảng a, sử dụng lệnh sau.

In [6]: a

Out[6]: array([ 1, 2, 87, 3, 4, 5])

In [7]: a[np.array([2,3,4])]

Out[7]: array([87, 3, 4])

Cho phép so sánh từng phần tử của mảng với một giá trị bất kì.

In [8]: a>4

Out[8]: array([False, False, True, False, False, True], dtype=bool)

Xuất các giá trị trong mảng lớn hơn 4.

In [9]: a[a>4]

Out[9]: array([87, 5])

Thay thế các giá trị vượt ngưỡng bằng một giá trị cụ thể. Ví dụ, thay thế các giá trị lớn hơn 4 của mảng bằng 4.

In [10]: a[a>4] = 4

In [11]: a

Out[11]: array([1, 2, 4, 3, 4, 4])

Có thể sử dụng hàm clip để đưa các giá trị của mảng về một miền cho trước, các giá trị cao hơn hoặc thấp

hơn ngưỡng sẽ bị thay thế bởi ngưỡng.

In [17]: a

Out[17]: array([1, 2, 4, 3, 4, 4])

In [18]: a.clip(2,3)

Out[18]: array([2, 2, 3, 3, 3, 3])

--------------------------

Tham khảo (lược dịch)

Willi Richert, Luis Pedro Coelho, Building Machine Learning Systems with Python, PACKT publishing, 2013

--------------------------

Cập nhật (2015/1/20)

--------------------------

Đọc thêm

Hoc may voi Python (2)

Menu

Tìm kiếm trong Blog

Hoc may voi Python (1)

Chương 1. Tổng quan

Mở đầu

Làm quen với NumPy