Phân tích dữ liệu (1) - Tổng quan

 I. Tổng quan

I.1. Dữ liệu là gì?

Dữ liệu (data) là một tập hợp các giá trị rời rạc hoặc liên tục dùng để truyền tải thông tin, mô tả số lượng, chất lượng, sự kiện, số liệu thống kê, hoặc đơn giản chỉ là một chuỗi ký hiệu mà ý nghĩa của nó tùy thuộc vào cách thức diễn giải.

Dữ liệu được thể hiện ở nhiều dạng khác nhau, ví dụ dưới dạng số, ký tự, kí hiệu, màu sắc, hình ảnh, âm thanh, video.

Ví dụ về dữ liệu: nội dung văn bản trên các trang web, các bảng số liệu trong excel, hình ảnh có chứa 3 bóng đèn tín hiệu giao thông, tập tin video lấy về từ camera an ninh.

Dữ liệu ở dạng thô thường không mang nhiều ý nghĩa. Do vậy, chúng ta cần phải xử lý nó (với sự trợ giúp của máy tính, phần mềm) để rút ra được nhiều thông tin, tri thức, nhằm ứng dụng vào công việc và cuộc sống.

Chúng ta hãy quan sát quá trình xử lý dữ liệu ở hình sau: 



- Từ dữ liệu (data), chúng ta sẽ rút ra được thông tin (information), tri thức (knowledge), từ đó sẽ đưa ra được các quyết định khôn ngoan (wisdom).

- Dữ liệu luôn chứa những thứ dư thừa, do vậy cần nhiều đĩa cứng (hard disk) để lưu trữ hơn so với thông tin, và tri thức.

- Dữ liệu, thông tin và tri thức là những thứ đã xảy ra (past); dựa trên những thứ đã xảy ra để dự đoán cho tương lai (future).

Ví dụ:

Ứng dụng

Dừng xe

Tập trung nhiều vào mặt hàng sinh tố

Tri thức

Đèn đỏ thì không được phép đi

Mọi người thích sinh tố hơn cà phê

Thông tin

Đèn đỏ giao thông ở ngã tư bật sáng

Bán sinh tố được nhiều hơn cà phê

Dữ liệu

Màu đỏ

Số lượng bán:

- Cà phê: 5 ly

- Sinh tố: 30 ly

I.2. Phân tích dữ liệu là gì?

Phân tích dữ liệu (data analysis) là quá trình kiểm tra, làm sạch, chuyển đổi, và mô hình hóa dữ liệu; để tìm ra các thông tin hữu ích, các kết luận và hỗ trợ quá trình ra quyết định của doanh nghiệp. 

Dựa trên kết quả của quá trình phân tích dữ liệu, các quyết định của doanh nghiệp sẽ có thêm cơ sở thực tế, thay vì dựa hoàn toàn vào cảm tính.

Trong tiếng Anh cũng có một từ khác là data analytics, mà khi dịch ra tiếng Việt cũng là “phân tích dữ liệu”, tuy nhiên data analytics có thêm bước đi thu thập dữ liệu. Nghĩa là data analytics bao hàm luôn data analysis. Chưa biết dùng 2 từ tiếng Việt nào để phân biệt 2 cụm từ data analytics và data analysis.

Người làm nghề phân tích dữ liệu được gọi là chuyên viên phân tích dữ liệu (data analyst).

Muốn trở thành một chuyên viên phân tích dữ liệu cần học gì?

- Tìm hiểu về nghề phân tích dữ liệu xem có phù hợp với bản thân không

- Phân tích dữ liệu bằng Excel

- Thống kê trong phân tích dữ liệu

- SQL trong phân tích dữ liệu

- Các công cụ trực quan hóa dữ liệu (visualization tool)

- Python trong phân tích dữ liệu

I.3. Những tố chất, kỹ năng cần có để làm nghề

- Tư duy logic

- Khả năng tập trung

- Khả năng giao tiếp, thuyết trình

- Cẩn thận, tỉ mỉ, bảo mật

- Khả năng học kiến thức mới

- Toán thống kê cho phân tích dữ liệu

- Sử dụng thành thạo các công cụ, phần mềm để phân tích dữ liệu, trực quan hóa dữ liệu, báo cáo

- Kỹ năng lập trình

I.4. Xem và đọc thêm

[1] Phân biệt analytics và analysis: https://200lab.io/blog/su-khac-biet-giua-data-analytics-va-data-analysis/

[2] Analytics and analysis: https://www.questionpro.com/blog/data-analytics-vs-data-analysis

[3] Lộ trình học để trở thành một data analyst: https://www.youtube.com/watch?v=ZqvTVRWM5i4

I.5. Bài tập và thực hành

Bài 1. Liệt kê các nguồn tài liệu để học DA (data analysis)


- Tìm hiểu về nghề phân tích dữ liệu


- Phân tích dữ liệu bằng Excel


- Toán Thống kê trong phân tích dữ liệu


- SQL trong phân tích dữ liệu


- Các công cụ trực quan hóa dữ liệu (visualization tool)


- Python trong phân tích dữ liệu



Bài 2. Khảo sát nhu cầu tuyển dụng, mức lương của một DA tại Việt Nam

I.6. Câu hỏi ôn tập

Câu 1. Thuật ngữ nào có nghĩa là chuyên viên phân tích dữ liệu?

A. Data analysis

B. Data analytics

C. Data analyst

D. Data scientist

Câu 2. Công việc của bạn là xử lý trên dữ liệu có sẵn, nhằm rút ra các thông tin, kết luận hữu ích. Thuật ngữ tiếng Anh của việc này là gì?

A. Data analysis

B. Data analytics

C. Data analyst

D. Data scientist

Câu 3. Để trở thành một chuyên viên phân tích dữ liệu, bạn cần phải học những nội dung sau. Phát biểu nào không đúng?

A. Tìm hiểu về nghề phân tích dữ liệu

B. Excel, SQL

C. Toán rời rạc

D. Python, Toán thống kê, Công cụ trực quan hóa dữ liệu

Câu 4. Những tố chất, kỹ năng cần có của một người làm nghề phân tích dữ liệu. Phát biểu nào không đúng?

A.  Tư duy logic, Khả năng tập trung, Kỹ năng lập trình, Toán thống kê cho phân tích dữ liệu

B. Kỹ năng lãnh đạo

C. Khả năng học kiến thức mới, Sử dụng thành thạo các công cụ, phần mềm để phân tích dữ liệu, trực quan hóa dữ liệu, báo cáo

D. Cẩn thận, tỉ mỉ, bảo mật, Khả năng giao tiếp, thuyết trình

-----

Cập nhật: 12/3/2024

Bài sau: Phân tích dữ liệu (2) - Excel cơ bản và nâng cao (1)

-----