--------------- <> -----------------
--- KHOA HỌC - CÔNG NGHỆ - GIÁO DỤC - VIỆC LÀM ---
--- Học để đi cùng bà con trên thế giới ---

Tìm kiếm trong Blog

Ebook2LateX (8) - Nhập dữ liệu tự động

Bài trước: Ebook2LateX (7) - Tạo các bảng
-----

8. Nhập dữ liệu tự động

8.1 Nhập dữ liệu tự động

Sau các bài học trước, chúng ta đã thực hiện:

- Tạo cơ dữ liệu cho dự án

- Tạo các bảng dữ liệu

- Thiết lập quan hệ giữa các bảng

- Lưu lại trạng thái dự án vào hệ thống Git

- Đẩy dự án lên Github

- Biết sử dụng ORM (SQLAlchemy)

- Biết sử dụng data migration (Alembic)

Tuy nhiên, trong các bảng chưa có dữ liệu. Việc nhập dữ liệu thủ công vào các bảng sẽ mất nhiều thời gian.

Trong phần này chúng ta sẽ viết script để tự động nhập dữ liệu mẫu vào các bảng. 

Quá trình tự động nhập dữ liệu vào các bảng được gọi là seeding. Seeding có nghĩa thông thường là “gieo hạt”. Trong cơ sở dữ liệu nó là quá trình “gieo dữ liệu” vào các bảng.

Tại sao cần nhập dữ liệu tự động?

- Để tối ưu hóa thời gian và nguồn lực: Thay vì tiêu tốn hàng giờ để nhập liệu thủ công từng bản ghi qua pgAdmin, một script tự động có thể tạo ra hàng nghìn dữ liệu chuẩn xác chỉ trong vài giây, giúp lập trình viên tập trung vào việc viết mã logic

- Kiểm thử giao diện và trải nghiệm người dùng (UI/UX): Dữ liệu mẫu giúp mô phỏng "hình hài" thực tế của ứng dụng. Ví dụ, cho phép kiểm tra xem các công thức toán học dài có làm vỡ khung giao diện không, hay các tính năng phân trang, tìm kiếm và cuộn trang có hoạt động mượt mà hay không

- Đảm bảo tính nhất quán trong làm việc nhóm: Cung cấp một bộ dữ liệu chuẩn duy nhất cho tất cả thành viên. Điều này giúp loại bỏ tình trạng sai lệch dữ liệu giữa các máy tính cá nhân, giúp việc tái hiện lỗi (debug) và phối hợp phát triển trở nên đồng bộ

- Xác thực cấu trúc và các ràng buộc hệ thống: Quá trình đổ dữ liệu tự động là cách nhanh nhất để kiểm tra tính đúng đắn của thiết kế cơ sở dữ liệu, đảm bảo các mối quan hệ khóa ngoại và các ràng buộc dữ liệu hoạt động đúng như mong đợi

Các bước để tạo dữ liệu

Để thực hiện tạo dữ liệu, chúng ta sẽ xây dựng các script Python sử dụng chính các Model (Users, Documents, FormulaEntries, Logs) đã định nghĩa bằng SQLAlchemy.

- Bước 1: Khởi tạo kết nối Database, chúng ta sử dụng đối tượng Session từ SQLAlchemy để giao tiếp với PostgreSQL thông qua chuỗi kết nối đã cấu hình trong tập tin .env.

Bạn cần đảm bảo: trong tập tin /Ebook2LateX/backend/.evn, đã có chuỗi kết nối, ví dụ: DATABASE_URL=postgresql://postgres:p%40ssword1@localhost:5432/ebook2latex_db

(Lưu ý: Khác với khi làm việc với Alembic, Python sẽ báo lỗi nếu chúng ta mã hóa “@” thành “%%40”, nên chúng ta sẽ mã hóa “@” thành “%40”).

Bạn cũng cần đảm bảo đã cài đặt thư viện python-dotenv để đọc thông tin từ .evn. (Xem lại phần 7.2 Cài đặt). Nếu chưa cài đặt, bạn chạy lệnh sau:

pip install python-dotenv

Viết mã khởi tạo trong database.py

Trong thư mục backend, tạo thư mục app. Trong app tạo tập tin database.py với nội dung sau:

[database.py]

import os

from dotenv import load_dotenv

from sqlalchemy import create_engine

from sqlalchemy.orm import sessionmaker, declarative_base


# Tải các biến môi trường từ tập tin .env

load_dotenv()


# 1. Lấy chuỗi kết nối từ biến môi trường

SQLALCHEMY_DATABASE_URL = os.getenv("DATABASE_URL")


# 2. Tạo Engine: Đây là "nguồn" kết nối chính tới Database

engine = create_engine(SQLALCHEMY_DATABASE_URL)


# 3. Tạo SessionLocal: Mỗi thực thể của lớp này sẽ là một phiên làm việc database

# autocommit=False: Đảm bảo dữ liệu chỉ được lưu khi ta ra lệnh commit()

SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)


# 4. Tạo Base class: Các models (User, Document...) sẽ kế thừa từ đây

Base = declarative_base()

Giải thích thêm về đoạn mã trên

- load_dotenv(): Hàm này đọc tập tin .env và đưa các cấu hình vào hệ thống, để Python có thể đọc được qua os.getenv

- create_engine: Đóng vai trò là trung tâm điều khiển. Nó giữ các kết nối thực tế tới PostgreSQL. Bạn chỉ nên tạo một Engine duy nhất cho toàn bộ ứng dụng

- sessionmaker: Đây là thành phần tạo ra các đối tượng Session. Mỗi khi Backend nhận được một yêu cầu (request) từ người dùng, chúng ta sẽ mở một Session từ thành phần này để truy vấn dữ liệu

- bind=engine: Kết nối thành phần tạo session này với Engine đã tạo ở trên

Liên kết Models với cấu trúc thư mục mới

Vì bạn vừa đưa tập tin database.py vào thư mục app, bạn cần đảm bảo tập tin models.py (nơi định nghĩa các bảng Users, Documents...) cũng nằm trong thư mục app này để đồng bộ.

Di chuyển tập tin models.py vào thư mục /backend/app/.

Mở tập tin models.py, tìm dòng from database import Base và sửa thành (nếu chưa có thì thêm):

from .database import Base  # Dấu chấm đại diện cho việc import cùng thư mục

[models.py]

import uuid

from sqlalchemy import Column, String, Integer, ForeignKey, DateTime, Boolean, Text, Numeric

from sqlalchemy.dialects.postgresql import UUID, JSONB

from sqlalchemy.ext.declarative import declarative_base

from sqlalchemy.orm import relationship

from sqlalchemy.sql import func

from .database import Base


# Khởi tạo lớp Base để các Model kế thừa

Base = declarative_base()

...

Viết Script để tạo dữ liệu (seed.py)

Bây giờ chúng ta sẽ viết một tập tin Python để tự động tạo dữ liệu. Hãy tạo tập tin seed.py nằm trong thư mục /backend/ (cùng cấp với thư mục app).

Nội dung cho tập tin seed.py:

[seed.py]

import uuid

from app.database import SessionLocal

from app.models import User, Document, FormulaEntry


def seed_data():

    # 1. Khởi tạo phiên làm việc (Session)

    db = SessionLocal()

    

    try:

        print("Đang tạo dữ liệu...")


        # 2. Tạo dữ liệu cho bảng User

        # Lưu ý: Trong thực tế mật khẩu cần được băm (hash), ở đây ta nhập mật khẩu tượng trưng

        test_user = User(

            user_id=uuid.uuid4(),

            username_email="teo@dalat.edu.vn",

            password_hash="hashed_password_here",

            full_name="Lê Văn Tèo",

            role="Admin"

        )

        db.add(test_user)

        db.flush() # Đẩy dữ liệu tạm thời để lấy user_id cho bảng sau


        # 3. Tạo dữ liệu mẫu cho bảng Documents

        test_doc = Document(

            id=uuid.uuid4(),

            user_id=test_user.user_id,

            file_name="Giao_trinh_Toan_12.pdf",

            file_path_url="/uploads/toan12.pdf",

            status="Completed"

        )

        db.add(test_doc)

        db.flush()


        # 4. Tạo dữ liệu mẫu cho bảng FormulaEntries (Công thức LaTeX)

        formula = FormulaEntry(

            id=uuid.uuid4(),

            document_id=test_doc.id,

            latex_content=r"\frac{-b \pm \sqrt{b^2 - 4ac}}{2a}",

            order_index=1

        )

        db.add(formula)


        # 5. Xác nhận lưu toàn bộ thay đổi vào Database

        db.commit()

        print("Tạo dữ liệu thành công! Kiểm tra pgAdmin4 để xem kết quả.")


    except Exception as e:

        print(f"Có lỗi xảy ra: {e}")

        db.rollback() # Hoàn tác nếu có lỗi để tránh rác dữ liệu

    finally:

        db.close() # Luôn đóng kết nối sau khi xong


if __name__ == "__main__":

    seed_data()

Chạy lệnh Seeding

Sau khi viết xong tập tin seed.py, bạn mở Terminal tại thư mục /backend/ và chạy lệnh sau:

python seed.py

Sau bước này, bạn có thể mở pgAdmin 4, chuột phải vào các bảng và chọn View Data để xem kết quả là những dòng dữ liệu mẫu đầu tiên.

Cập nhật Git

Thực hiện commit vào Git để lưu lại trạng thái.

- Trong cửa sổ dòng lệnh (CMD), dấu nhắc lệnh đang ở thư mục gốc dự án (Ebook2LateX), nhập các lệnh sau:

(venv) D:\DuAn\Ebook2LateX>git status

HEAD detached at 4766c6a

Changes not staged for commit:

  (use "git add/rm <file>..." to update what will be committed)

  (use "git restore <file>..." to discard changes in working directory)

        deleted:    backend/models.py


Untracked files:

  (use "git add <file>..." to include in what will be committed)

        backend/app/

        backend/seed.py


no changes added to commit (use "git add" and/or "git commit -a")

(venv) D:\DuAn\Ebook2LateX>git add .

(venv) D:\DuAn\Ebook2LateX>git commit -m "feat: tao du lieu tu dong"

Cập nhật dự án lên Github

Kiểm tra kết nối giữa máy local với kho chứa ở xa?

Mở chương trình dòng lệnh, dấu nhắc tại thư mục dự án, gõ lệnh sau:

(venv) D:\DuAn\Ebook2LateX>git remote -v

origin  https://github.com/legiacong/Ebook2LateX.git (fetch)

origin  https://github.com/legiacong/Ebook2LateX.git (push)

Vậy là yên tâm để đẩy dự án lên Github:

(venv) D:\DuAn\Ebook2LateX>git push origin main

Ý nghĩa lệnh trên: Đẩy dự án lên repo có tên gọi tắt là origin, đẩy vào nhánh main.

8.2 Bài tập và câu hỏi

Bài tập

Bài tập 8a. Lập trình và cài đặt các nội dung trong phần lý thuyết.

Khi làm các bài tập, các bạn đừng sợ làm hỏng Database. Nếu làm sai, bạn có thể xóa database, tạo lại và chạy lệnh upgrade head cùng seed.py. Đó chính là sức mạnh của các công cụ bạn vừa học.

Bài tập 8b. Mở rộng cấu trúc (Schema Expansion)

Mục tiêu: Giúp người học hiểu cách thay đổi cấu trúc Database mà không làm mất dữ liệu hiện có.

Yêu cầu 1: Thêm tính năng "Yêu thích" (Likes/Stars):

- Yêu cầu: Thêm một bảng mới tên là UserFavorites để lưu việc người dùng đánh dấu các công thức (FormulaEntry) họ quan tâm

- Thao tác: Định nghĩa Model mới > Chạy alembic revision --autogenerate > alembic upgrade head

Yêu cầu 2: Quản lý phiên bản tài liệu:

- Yêu cầu: Thêm một cột version (kiểu Integer, mặc định là 1) vào bảng Documents

- Thao tác: Cập nhật models.py > Thực hiện migration để cập nhật database thực tế

Bài 8c: Truy vấn Nâng cao

Mục tiêu: Sử dụng Session và Relationship để lấy dữ liệu phức tạp.

Yêu cầu 1: Thống kê báo cáo (Reporting):

- Yêu cầu: Viết một script Python sử dụng SessionLocal để in ra danh sách tất cả các User, kèm theo số lượng tài liệu mà mỗi người đã tải lên

- Gợi ý: Sử dụng hàm func.count() trong SQLAlchemy

Yêu cầu 2: Tìm kiếm công thức:

- Yêu cầu: Viết một hàm nhận vào một từ khóa (ví dụ: "sqrt") và trả về tất cả các FormulaEntry có chứa từ khóa đó trong cột latex_content

Bài tập 8d. Seeding thực tế 

Mục tiêu: Làm quen với việc tạo dữ liệu mẫu số lượng lớn và ngẫu nhiên.

Yêu cầu 1: "Gieo dữ liệu" số lượng lớn với thư viện Faker:

- Thay vì nhập tay từng dòng như seed.py, hãy cài đặt thư viện Faker (pip install faker)

- Viết script tự động tạo ra 50 người dùng với tên và email ngẫu nhiên, mỗi người dùng có từ 2-5 tài liệu mẫu

Yêu cầu 2: Seeding từ tệp JSON:

- Tạo một tệp data.json chứa danh sách 10 công thức toán học

- Viết script seed_from_json.py đọc dữ liệu từ tập tin này và nạp vào bảng FormulaEntries

Câu hỏi

Câu 8.1 Trong dự án Python, thư viện python-dotenv được cài đặt và sử dụng nhằm mục đích chính là gì? 

A. Để tự động vẽ sơ đồ cơ sở dữ liệu cho dự án

B. Để nạp các biến môi trường (như chuỗi kết nối Database) từ tập tin .env vào hệ thống

C. Để mã hóa các tập tin hình ảnh thành định dạng LaTeX

D. Để gửi email thông báo cho người dùng khi có dữ liệu mới

Câu 8.2 Trong tập tin database.py, đối tượng engine được tạo ra bằng hàm create_engine đóng vai trò gì trong hệ thống?

A. Là nơi chứa các câu lệnh SQL dùng để tạo bảng

B. Là giao diện người dùng để nhập liệu thủ công vào PostgreSQL

C. Là "trung tâm điều khiển" giữ kết nối thực tế và quản lý việc giao tiếp giữa ứng dụng Python với PostgreSQL

D. Là một thư mục dùng để lưu trữ các tập tin PDF được tải lên

Câu 8.3 Tại sao chúng ta nên sử dụng SessionLocal (phiên làm việc) thay vì kết nối trực tiếp vào Database mỗi khi cần thao tác dữ liệu?

A. Để tăng tốc độ mạng Internet của máy tính

B. Để SQLAlchemy có thể quản lý các thay đổi một cách có hệ thống, cho phép xác nhận lưu (commit) hoặc hoàn tác (rollback) khi có lỗi xảy ra

C. Vì PostgreSQL không cho phép kết nối trực tiếp từ ngôn ngữ Python

D. Để tự động sao lưu dữ liệu lên hệ thống đám mây Github

Câu 8.4 Trong tập tin seed.py, nếu bạn muốn tạo một bản ghi cho bảng Document mà bảng này có khóa ngoại liên kết với bảng User, bạn cần phải thực hiện bước nào dưới đây để đảm bảo tính toàn vẹn dữ liệu? 

A. Phải tạo và lưu thông tin User trước, sau đó lấy user_id của người dùng đó để gán vào thuộc tính user_id của đối tượng Document

B. Chỉ cần nhập một tên người dùng bất kỳ vào bảng Document mà không cần quan tâm bảng User

C. Xóa bỏ ràng buộc khóa ngoại trong models.py trước khi chạy lệnh seeding

D. Phải chạy lệnh alembic upgrade head ngay bên trong tập tin seed.py

-----
Bài sau: