1. Dữ liệu và CSDL
1.1 Dữ liệu là gì
Trong ngành Công nghệ Thông tin, dữ liệu được hiểu là:
- Một chuỗi gồm một hoặc nhiều ký hiệu (sequence of one or more symbols), như chữ cái, số, ký hiệu đặc biệt (ví dụ: A, 1, $). Đây là cách dữ liệu được biểu diễn ở mức người dùng hoặc mức trừu tượng cao hơn, trước khi máy tính xử lý. Ví dụ, chuỗi "123" hoặc "Xin chào" là dữ liệu dạng ký hiệu mà con người nhập vào hệ thống. Ở mức cơ bản (mức máy tính xử lý), các ký hiệu này sẽ được mã hóa để máy tính hiểu.
- Ở mức lưu trữ thấp nhất (cấp độ phần cứng), mọi dữ liệu trong máy tính đều được biểu diễn bằng bit (binary digits) – tức là 0 và 1. Đây là ngôn ngữ cơ bản mà máy tính sử dụng để lưu trữ và xử lý. Ví dụ: chuỗi "Xin chào” sẽ được mã hóa thành một dãy bit (ví dụ: 01011000 01101001 trong mã ASCII cho chữ "X" và "i"). Tất cả văn bản, hình ảnh, âm thanh cuối cùng đều quy về nhị phân.
- Cần được thông dịch (diễn dịch, xử lý) để trở thành thông tin. Dữ liệu thô (raw data) chỉ là tập hợp ký hiệu hoặc số liệu, không có ý nghĩa cho đến khi được xử lý hoặc diễn dịch để trở thành thông tin (information) – dữ liệu có ngữ cảnh và ý nghĩa. Ví dụ, số "19" là dữ liệu; khi được diễn dịch là "tuổi của bạn", nó trở thành thông tin. Máy tính hoặc con người cần xử lý dữ liệu để hiểu và sử dụng nó.
- Biểu diễn số lượng, tính chất của các đối tượng hoặc chỉ dẫn hoạt động. Ví dụ, biểu diễn số lượng: "5" là số sản phẩm trong kho; biểu diễn tính chất: "đỏ" là màu của một chiếc xe; chỉ dẫn hoạt động: mã lệnh "1010" yêu cầu CPU thực hiện phép cộng.
- Dữ liệu được lưu trữ trên ổ đĩa (HDD, SSD) hoặc các thiết bị khác như RAM, đám mây
- Được tổ chức theo dạng cấu trúc, bán cấu trúc hoặc không cấu trúc.
Xem hình minh họa (dữ liệu được lưu trong máy tính).
Tháp xử lý
thông tin
Tháp xử lý thông tin (DIKW Pyramid, hoặc Information Hierarchy) là một mô hình khái niệm phổ biến trong CNTT và quản lý thông tin. Mô hình này mô tả quá trình chuyển đổi từ dữ liệu (data) lên thông tin (information), tri thức (knowledge), và cuối cùng là minh triết/sự khôn ngoan (wisdom).
Trong cuộc sống hàng ngày, dữ liệu quanh ta rất phong phú và ẩn chứa bên dưới nhiều giá trị mà chúng ta ít nhận ra. Từ số bước chân bạn đi mỗi ngày, các giao dịch ngân hàng, đến bài đăng trên mạng xã hội. Tuy nhiên, nếu không được xử lý, nó chỉ là những con số hoặc ký hiệu vô nghĩa, tiềm ẩn giá trị mà con người thường không nhận ra ngay. Ví dụ, hàng triệu giao dịch mua sắm là dữ liệu, nhưng nếu không phân tích, ta không thấy được xu hướng mua hàng nào đang nổi bật.
Do vậy, chúng ta sẽ làm cho máy tính có khả năng lưu trữ và xử lý dữ liệu (data) nhằm tạo ra thông tin (information) có ích; từ đó rút trích ra các tri thức (knowledge) và hỗ trợ cho quá trình ra quyết định (wisdom – minh triết/sự khôn ngoan).
Xem hình minh họa.
Ý nghĩa mỗi
tầng của Tháp xử lý thông tin:
- Dữ liệu (Data): nhiều, thô, chưa có ý nghĩa rõ ràng
- Thông tin (Information): dữ liệu được xử lý để có ý nghĩa
- Tri thức (Knowledge): hiểu biết từ thông tin
- Minh triết (Wisdom): áp dụng tri thức vào quyết định thực tế
Ví dụ minh họa:
- Dữ liệu: "50, 60, 70" (nhịp tim đo được trong 3 ngày)
- Thông tin: "nhịp tim trung bình là 60 lần/phút" (máy tính xử lý)
- Tri thức: "nhịp tim tăng dần qua 3 ngày" (phân tích xu hướng)
- Minh triết: "nên đi khám vì nhịp tim bất thường" (quyết định dựa trên tri thức)
1.2 Cơ sở dữ liệu là gì
Hãy tưởng tượng bạn lưu trữ một khối lượng dữ liệu khổng lồ (như số liệu, danh sách, hình ảnh, âm thanh), một cách lộn xộn trong ổ cứng dưới dạng các tập tin riêng lẻ. Hoặc giả sử bạn lưu trữ danh sách hàng ngàn mặt hàng (chưa bán, đã bán), giá cả từng món hàng, và thông tin khách hàng trong các tệp văn bản. Việc tìm kiếm, thêm, xóa hay sửa từng mục trong hàng ngàn dữ liệu như vậy sẽ khó khăn và mất thời gian đến mức nào?
Đây chính là lúc bạn cần một giải pháp để lưu trữ và sử dụng dữ liệu một cách hiệu quả. Giải pháp chính là dùng cơ sở dữ liệu (CSDL). Nó giúp bạn tổ chức dữ liệu ngăn nắp, tìm kiếm nhanh chóng và khai thác thông tin một cách thuận tiện.
Cơ sở dữ liệu (database) là một tập hợp dữ liệu được tổ chức, lưu trữ và quản lý một cách có hệ thống trên máy tính, để bạn có thể dễ dàng truy cập, thêm, sửa, xóa hoặc tìm kiếm thông tin khi cần. Hãy nghĩ về CSDL như một "kho lưu trữ thông minh".
Ưu điểm khi sử dụng cơ sở dữ liệu:
- Giúp người dùng dễ dàng truy cập, quản lý, khai thác và cập nhật thông tin
- Giảm sự trùng lặp thông tin xuống mức thấp nhất
- Có thể truy xuất thông tin theo nhiều cách
- Cho phép nhiều người cùng sử dụng một lúc
- Tăng tính bảo mật cho dữ liệu
- Tăng tính toàn vẹn dữ liệu
- Khả năng mở rộng dễ dàng
1.3 Làm việc với CSDL
Khi làm việc với CSDL, chúng ta quan tâm tới 3 thành phần sau:
- Dữ liệu
- Cách thức tổ chức dữ liệu
- Phần mềm quản lý CSDL
Dữ liệu
Khi làm việc với CSDL, bạn có thể hiểu đơn giản, dữ liệu là tập hợp các thông tin thô (raw facts) được thu thập, lưu trữ và xử lý trong cơ sở dữ liệu. Đây là thành phần cốt lõi, đại diện cho các giá trị thực tế mà hệ thống cần quản lý. Dữ liệu có thể ở dạng số, văn bản, hình ảnh, âm thanh, hoặc bất kỳ định dạng nào khác tùy thuộc vào mục đích sử dụng.
Dữ liệu có một số đặc điểm
- Nguyên bản: chưa qua xử lý hoặc tổ chức thành thông tin có ý nghĩa.
- Đa dạng: có thể là dữ liệu có cấu trúc (structured), bán cấu trúc (semi-structured), hoặc không cấu trúc (unstructured).
- Nguồn gốc: được thu thập từ người dùng, hệ thống, cảm biến, hoặc các nguồn khác.
Ví dụ về dữ liệu:
- Dữ liệu về khách hàng (tên, địa chỉ, số điện thoại).
- Dữ liệu về sản phẩm (tên sản phẩm, giá cả, số lượng).
- Dữ liệu về kết quả học tập của sinh viên (mã sinh viên, điểm số).
Cách thức tổ chức dữ liệu
Khi đã có dữ liệu
rồi, chúng ta cần phải có cách thức để tổ chức dữ liệu, nhằm giúp cho việc việc
lưu trữ, quản lý và truy xuất được dễ dàng.
Có hai mô hình tổ chức dữ liệu đang được sử dụng phổ biến, gồm:
- Mô hình quan hệ (relational model): dữ liệu được tổ chức dưới dạng các bảng
- Mô hình phi quan hệ (noSQL): dữ liệu được tổ chức dưới dạng phi cấu trúc, hoặc bán cấu trúc như JSON, XML.
Phần mềm quản lý CSDL
Khi đã có cơ sở dữ
liệu (CSDL), bao gồm dữ liệu và mô hình tổ chức dữ liệu, chúng ta cần sử
dụng các công cụ (phần mềm) để chuyển CSDL vào hệ thống máy tính.
Phần mềm đảm nhận vai
trò này được gọi là Phần mềm quản lý CSDL, hay còn được gọi là Hệ quản trị CSDL
(Database Management System - DBMS).
Hệ quản trị CSDL
(DBMS) là một phần mềm chuyên dụng, cho phép người dùng thực hiện các thao tác
như tạo lập, quản lý và truy xuất dữ liệu trong CSDL. DBMS cung cấp các công cụ
hỗ trợ định nghĩa cấu trúc dữ liệu, nhập liệu, thực hiện truy vấn dữ liệu, đồng
thời đảm bảo tính bảo mật cho dữ liệu được lưu trữ.
Một số DBMS phổ biến:
- MySQL
- PostgreSQL
- Oracle Database
- Microsoft SQL Server
- MongoDB(NoSQL)
1.4 Bài tập
Câu 1.1 Trong lĩnh vực Công nghệ Thông tin, dữ liệu là gì? Phát biểu nào sau đây không đúng?
A. Dữ liệu thô (raw data) đã có ngữ cảnh và ý nghĩa, không cần phải thông dịch (xử lý) để trở thành thông tin.
B. Dữ liệu là một chuỗi gồm một hoặc nhiều ký hiệu, như chữ cái, số, ký hiệu đặc biệt.
C. Ở mức lưu trữ thấp nhất (cấp độ phần cứng), mọi dữ liệu trong máy tính đều được biểu diễn bằng bit (binary digits) – tức là 0 và 1.
D. Dữ liệu được lưu trữ trên ổ đĩa (HDD, SSD) hoặc các thiết bị khác như RAM, đám mây.
Câu 1.2 Cơ sở dữ liệu (database) là gì? Phát biểu nào sau đây không đúng?
A. Cơ sở dữ liệu là một tập hợp dữ liệu được tổ chức, lưu trữ và quản lý một cách có hệ thống trên máy tính.
B. Cơ sở dữ liệu làm tăng sự trùng lặp thông tin lên mức cao nhất.
C. Cơ sở dữ liệu giúp người dùng dễ dàng truy cập, quản lý, khai thác và cập nhật thông tin.
D. Cơ sở dữ liệu cho phép nhiều người cùng sử dụng một lúc.
Câu 1.3 DBMS là
gì? Phát biểu nào sau đây không đúng?
A. DBMS là phần mềm cho phép người dùng tạo, quản lý và truy xuất dữ liệu trong CSDL.
B. DBMS cung cấp các công cụ để định nghĩa cấu trúc dữ liệu, nhập dữ liệu, truy vấn dữ liệu và bảo mật dữ liệu.
C. MySQL, PostgreSQL, Oracle Database, Microsoft SQL Server, MongoDB là các ví dụ về DBMS.
D. DBMS chỉ hỗ trợ các mô hình dữ liệu quan hệ, không hỗ trợ mô hình phi quan hệ.
Câu 1.4 Theo “Tháp xử
lý thông tin”, quá trình chuyển đổi dữ liệu được thực hiện theo thứ tự nào?
A. Data >
Knowledge > Information > Wisdom
B. Information >
Data > Knowledge > Wisdom
C. Data >
Information > Wisdom > Knowledge
D. Data >
Information > Knowledge > Wisdom
-----
Cập nhật: 11/3/2025
-----
Bài sau: