Tham luận chữ quốc ngữ của tác giả Phạm Thị Kiều Ly (2019)
Phần 1:
Phần 2:
----
Việt hoá từ chuyên ngành cũng là làm quốc văn hay đẹp hơn lên...
Lê Minh Quốc
TTO - Trước sự phát triển của các chuyên ngành khoa học kỹ thuật, vốn từ tiếng Việt trong lĩnh vực này cũng đang ngày càng được cập nhật.
Khi đánh chiếm Nam Kỳ, từ thời điểm nào người Pháp đã mở trường bá nghệ nhằm dạy nghề cho người bản xứ.
Ngày 11-4-1904, toàn quyền Đông Dương ra nghị định mở trường học nghề ở Sài Gòn. Trường gồm ba ngành: nguội, mộc, đúc loại nhỏ. Thời gian học: 3 năm.
Từ Danh từ khoa học...
Không rõ thuở ấy các học trò được học giáo trình nào do người Pháp biên soạn.
Nhưng có một điều chắc chắn đã có không ít nhà giáo tâm huyết với chương trình học đã biên soạn sách giáo khoa nhằm phục vụ một môn học còn quá xa lạ, mới mẻ đối với người Việt nói chung.
Trong tài liệu sưu tập, người viết còn giữ được quyển sách giáo khoa Thiệt hành điển học do Alexis Lân, Ingénieur Électricien A. & M - I.E.G biên soạn, Imprimerie F.H Schneider xuất bản năm 1917 tại Sài Gòn:
"Sách dạy những điều cần kíp cho những thợ Annam làm các máy điển khí và những học trò các trường bá nghệ".
Sách in hai thứ tiếng Pháp - Việt, dạy tương đối đầy đủ môn học về điện mà học trò cần phải biết.
Chẳng hạn, đây là bài toán số 8: "Hai cái đèn thắp bằng than sức nó là 10 ampères mà câu en série theo một mạch hơi là 120 volts. Mình biết cái différence de potentiel của mỗi cái đèn không có quá trên 45 volts phải độ một cái résistance mà câu en série với hai cái đèn đó đặng cầm bớt volts cho vừa theo sức nó".
Qua ví dụ trên, ta có thể thấy được vốn từ của tiếng Việt bấy giờ vẫn còn hạn chế đối với một số từ khoa học kỹ thuật.
Mãi đến năm 1942, nhà bác học Hoàng Xuân Hãn mới soạn xong quyển Danh từ khoa học (toán, lý, hóa, cơ, thiên văn) nhằm Việt hóa các từ cần thiết để người đọc/học dễ dàng tiếp thu.
Ông tâm tình: "Tập Danh từ khoa học này mục đích là để người giảng với người nghe có một ngôn ngữ tương đồng khi bàn về khoa học".
Có thể ghi nhận đây là một trong những đóng góp quan trọng trong hệ thống giáo dục Việt Nam và cả sự phát triển, bổ sung vốn từ cho tiếng Việt.
Nối tiếp vai trò tiên phong của Hoàng Xuân Hãn, đến nay đã có nhiều từ điển thuộc lĩnh vực khoa học, ngành nghề được thực hiện.
Vài thuật ngữ sáng tạo
- "Précipiter về hóa học là nói lúc ta rót một chất nước trong vào một chất nước trong khác, tự nhiên ta thấy một chất đặc hiện ra tua tủa và dần dần lắng xuống...
Tuy là một hiện tượng rất quen, ta không có danh từ để gọi. Tôi lấy 2 ý: kết thành và tủa ra mà gọi là "kết tủa" (Hoàng Xuân Hãn - Danh từ khoa học, NXB Trường Thi tái bản năm 1959, tr.XXXI).
- "Tunneling (Anh): Chui đường hầm - một thuật ngữ thường đi kèm với cổng dữ liệu VPN (tr.70).
Stellglied (Đức), Final control element (Anh): Cơ cấu tác chỉnh / cơ cấu tác động (tr.394)".
(Khảo sát từ chuyên ngành cơ điện tử - NXB Trẻ, 2017).
...đến bộ sách chuyên ngành Nhất nghệ tinh
Mới đây nhất, trong chương trình hợp tác Việt - Đức Đổi mới đào tạo nghề Việt Nam, Nhà xuất bản hàng đầu của Đức Europa Lehrmittel đã cung cấp tài liệu về một số ngành nghề, theo đánh giá của TS Đặng Xuân Phúc - vụ trưởng Vụ Dạy nghề chính quy, Tổng cục Dạy nghề, Bộ LĐ-TB&XH, nhằm "cung cấp kiến thức kỹ năng để có thể đạt đến tiêu chuẩn quốc tế".
Một trong những rào cản khiến người dịch không thể trình bày đầy đủ, chuẩn xác các chi tiết đơn giản chỉ vì trong tiếng Việt chưa có từ tương đương.
Mỗi người chọn lấy từ theo cách nghĩ của riêng mình, thiếu nhất quán - nhất là sách dạy nghề.
Nhằm khắc phục điều này, từ tháng 2-2010, Quỹ Thời báo kinh tế Sài Gòn, Ủy ban tương trợ người Việt tại CHLB Đức và NXB Trẻ đã lập dự án sách dạy nghề Nhất nghệ tinh.
Họ đã "huy động" đội ngũ dịch giả gần 100 kỹ sư, trí thức gốc Việt ở Đức và một số nước khác. Ông Nguyễn Minh Nhựt - giám đốc Nhà xuất bản Trẻ - cho biết một chi tiết thú vị:
"Làm sách khoa học thì tranh luận khoa học là chuyện xảy ra hằng ngày. Và để tăng thêm sự đồng thuận trong nhóm dịch, các anh chị dịch giả và một số nhà khoa học khác đã soạn ra trước mắt một từ điển trực tuyến Việt - Đức - Anh khoảng 20.000 từ và đang dần bổ sung".
Như vậy, trong vòng bảy năm với 4 cuốn sách Cơ khí (2013), Điện - điện tử (2014), Ôtô và xe máy hiện đại (2016), Cơ điện tử (2017) được dịch, đã có ngần ấy vốn từ chuyên môn tiếng Anh, Đức được chuyển ngữ sang tiếng Việt.
Rồi sắp đến đây, với những bộ sách đang dịch như Cẩm nang hóa công nghiệp, Nhựa và sinh học thì cuốn từ điển trên càng đa dạng hơn nữa. Âu cũng là một tín hiệu, một đóng góp mới đáng mừng về sự phong phú của tiếng Việt.
Về phía người đọc, được hưởng các thành quả này, thật tâm đắc với lời dặn dò của một nhân vật trong truyện dài Một đứa con đã khôn ngoan của nhà văn Nguyễn Công Hoan:
"Mình không có tài làm cho quốc văn hay đẹp hơn lên, thì phải có chút khuyến khích những người có công quý hóa ấy vậy".
Tác động của văn hóa còn là sự quyết liệt góp phần thay đổi về một nhận thức: Lâu nay, ai cũng biết "Nhất nghệ tinh, nhất thân vinh" nhưng tại sao giới trẻ hiện nay thờ ơ, không hăm hở học nghề?
Do nhiều lý do, trong đó không ngoại trừ vì họ phải tiếp cận giáo trình quá cũ kỹ, lạc hậu, không theo kịp sự phát triển khủng khiếp của các chuyên ngành khoa học kỹ thuật.
Chưa kể một khi tham khảo tài liệu nước ngoài, họ phải "đối đầu" với không ít thuật ngữ, vốn từ chưa được Việt hóa.
Nguồn: tuoitre.vn
-------
[chép về từ trang TiaSang]
[
Bức tranh khái quát về Mạng từ và Mạng từ tiếng Việt
14/06/2017 08:00 - Phạm Văn Lam - Nguyễn Phương Thái
Mạng từ trước hết là một tài nguyên từ vựng dành cho máy tính. Hàng loạt công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên và liên quan đến lĩnh vực trí tuệ nhân tạo như dịch máy, nhận dạng tiếng nói, hỏi và trả lời tự động,… đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể.
Mạng từ là gì?
Mạng từ (WordNet) - sản phẩm liên ngành chủ yếu của ngôn ngữ học, tâm lí học và khoa học máy tính là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/loạt đồng nghĩa tri nhận, mỗi loạt đồng nghĩa này thể hiện một khái niệm nghĩa riêng biệt; các loạt đồng nghĩa khác nhau có gắn kết với nhau nhờ vào các quan hệ ngữ nghĩa.
Ví dụ như từ mặt. Một nghĩa thường gặp của từ này là “phần phía trước của đầu người, kéo dài từ trán đến cằm, nơi có các bộ phận như mắt, mũi, mồm” thôi, ta cũng có thể kể ra hàng loạt từ mà nghĩa này có quan hệ trực tiếp. Chẳng hạn, nghĩa này sẽ có quan hệ ngữ nghĩa trực tiếp với những loạt đồng nghĩa có các từ đại diện là đầu, mắt, mũi, miệng, trán, cằm, má, mặt trái xoan, mặt vuông chữ điền,…. Mỗi từ có quan hệ nghĩa trực tiếp với nghĩa đang nói của từ mặt, đến lượt mình, lại có quan hệ ngữ nghĩa trực tiếp với rất nhiều từ khác nữa: từ đầu có quan hệ ngữ nghĩa trực tiếp với các từ tóc, gáy, tóc mai, thái dương, đỉnh đầu, cổ, mình, tay, chân, cơ thể,…; từ mắt có quan hệ ngữ nghĩa trực tiếp với các từ lông mày, lông mi, lòng đen, lòng trắng, nhìn, ngó, xem,… Cứ như vậy, từ/ nghĩa từ nào cũng có một tập hợp quan hệ ngữ nghĩa của riêng mình, chúng cứ có quan hệ dắt díu nhau mãi, tạo thành một mạng lưới quan hệ phức tạp theo các chiều hướng và tôn ti xác định.
Mạng từ của tiếng Hà Lan, trong đó, mỗi nút là một loạt từ đồng nghĩa, các nút này được nối với nhau nhờ quan hệ ngữ nghĩa.
Trạng thái hiện nay của các Mạng từ nói chung mới chỉ ghi nhận bốn lớp từ loại chính là danh từ, động từ, tính từ và trạng từ. Có thể nói rằng, cho đến thời điểm này, Mạng từ là một trong những nguồn tài nguyên từ vựng trực tuyến dành cho máy tính lớn nhất và quan trọng nhất.
Lịch sử của Mạng từ
Năm 1978, George Miller, giáo sư ngôn ngữ học tâm lí tại Đại học Princeton, bắt đầu phát triển một cơ sở dữ liệu về từ và mối quan hệ ngữ nghĩa giữa chúng ở trong tiếng Anh. Cơ sở dữ liệu từ vựng này có thể được xem như là một loại mô hình từ vựng tinh thần và được gọi là Mạng từ. Mạng từ tiếng Anh chính là Mạng từ đầu tiên trên thế giới. Hiện nay phiên bản 3.1 là phiên bản mới nhất của Mạng từ tiếng Anh, ra mắt người sử dụng vào năm 2012 gồm 155.287 từ, với 117.659 loạt đồng nghĩa gồm 206.941 cặp nghĩa từ, tồn tại dưới dạng nén với kích thước 12MB. Với phiên bản 3.1, trong Anh ngữ không thể có một nguồn ngữ liệu từ vựng nào trực tuyến tốt hơn, đầy đủ hơn (về cách giải thích nghĩa theo lối tôn ti, cách định vị, định trị quan hệ ngữ nghĩa, về việc cung cấp thông tin bách khoa,…), và lớn hơn (xét về số lượng đơn vị từ vựng và số lượng nghĩa được ghi nhận)…
Sau khi ra đời, bên cạnh việc sử dụng vào các mục đích tra cứu thông thường, Mạng từ tiếng Anh được sử dụng rộng rãi trong nhiều ứng dụng liên quan đến xử lí ngôn ngữ tự nhiên trên toàn thế giới và nó đã thúc đẩy, phát triển nhiều nghiên cứu mới.
Với thành công và tầm quan trọng của Mạng từ tiếng Anh này, người ta nhận thấy cần phải phát triển các nguồn tài nguyên từ vựng tương tự như vậy cho các ngôn ngữ khác. Thêm vào đó, nếu như các Mạng từ của các ngôn ngữ khác được xây dựng, người ta sẽ tạo ra được một mạng lưới tài nguyên từ vựng có sự liên kết thống nhất với nhau, giúp cho việc nghiên cứu và ứng dụng được phát triển tốt hơn. Vì thế, các nhà ngôn ngữ học, tin học và tâm lí học Châu Âu đã bắt tay vào việc xây dựng dự án Mạng từ Châu Âu (EuroWordNet). Năm 1996, dưới sự tài trợ của EU, Mạng từ Châu Âu chính thức được bắt đầu, với mục tiêu là phát triển một Mạng từ Châu Âu chung cho các tiếng Hà Lan, Tây Ban Nha và Ý, và liên kết Mạng từ chung này với Mạng từ tiếng Anh để có thể tạo thành một cơ sở dữ liệu từ vựng đa ngôn ngữ. Mạng từ Châu Âu (vốn được xây dựng dựa trên phiên bản 1.5 của Mạng từ tiếng Anh) không chỉ có lõi tương thích với Mạng từ tiếng Anh, mà còn được mở rộng bổ sung thêm nhiều về mặt đối tượng từ vựng và các quan hệ ngữ nghĩa. Năm 1997, dự án đã được mở rộng để phát triển cho các tiếng Đức, Pháp, Czech, và Estonia. Phiên bản Mạng từ Châu Âu đầu tiên đã ra đời vào cuối năm 1999.
Sau Mạng từ Châu Âu, một mạng từ đa ngữ đầu tiên trên thế giới, Mạng từ Châu Á (Asian WordNet) cũng đã được phát triển. Mạng từ Châu Á được thiết kế chủ yếu dựa trên Mạng từ tiếng Anh đơn ngữ và các nguồn từ điển song ngữ bản ngữ với tiếng Anh. Hiện có trên 10 ngôn ngữ trong Mạng từ Châu Á. Các ngôn ngữ được phát triển trong Mạng từ Châu Á có tỉ lệ như sau: Bengal (0.90%) Indonesia (8.17%), Nhật (30.35%), Hàn Quốc (35.93%), Lào (33.05%), Mông Cổ (1.38%), Myanmar (16.95%), Nepal (0.03%), Sinhala (0.23%), Sundanese (0.06%), Thái (40.27%), và Việt (10.40%) (số liệu của Virach Sornlertlamvanich, 2010).
Biểu diễn đồ hình của từ “run” trong Mạng từ Tiếng Anh. Nguồn: http://wordventure.eti.pg.gda.pl
Hiện nay trên thế giới có tới gần 100 ngôn ngữ, dựa trên Mạng từ gốc là Mạng từ tiếng Anh, đã xây dựng được mạng từ riêng của mình với mức độ hoàn thiện rất khác nhau. Các ngôn ngữ lớn như Nga, Trung, Nhật cũng đều đã có mạng từ riêng của mình.
Bài toán Mạng từ tiếng Việt
Bài toán xây dựng mạng từ dành cho tiếng Việt đã được chúng tôi đặt ra cách đây vài năm. Năm 2014, chúng tôi đã tham gia tổ chức Hội thảo khoa học chuyên đề Hướng tới việc xây dựng Mạng từ tiếng Việtt. Hội thảo đã thảo luận một cách chính thức làm thế nào để xây dựng được một mạng từ dành riêng cho tiếng Việt. Theo yêu cầu của bài toán này, Mạng từ tiếng Việt sẽ có kích thước gồm 30.000 loạt đồng nghĩa, tương đương 50.000 từ trong đó có 30.000 là từ tiếng Việt thông dụng; có các giao diện lập trình ứng dụng (API), cho phép người lập trình sử dụng Mạng từ này bằng một số ngôn ngữ như C++, Java, C#; và ghi nhận và xử lí ba lớp từ loại thực từ, đó là: danh từ, động từ và tính từ. Ngoài các đơn vị được gọi là từ một cách chân chính, trong các loạt đồng nghĩa của Mạng từ tiếng Việt có thể có cả các cụm từ, ngữ định danh vốn có giá trị tương ứng như từ; và bên cạnh việc ghi nhận và xử lí các từ chung, nó còn ghi nhận và xử lí cả các từ riêng, tức các danh từ riêng. Ở trạng thái hiện tại, Mạng từ tiếng Việt có kích thước gồm hơn 60.000 loạt đồng nghĩa, tương đương gần 100.000 đơn vị từ vựng, hơn 60.000 quan hệ nghĩa.
Biểu diễn đồ hình của từ “làm” trong Mạng từ Tiếng Việt. Nguồn: wordnet.vn.
Các ràng buộc và yêu cầu khi xây dựng Mạng từ tiếng Việt
Sau khi đã khảo sát đặc điểm cũng như phương pháp xây dựng Mạng từ tiếng Anh, Mạng từ Châu Âu, và Mạng từ Châu Á, chúng tôi quyết định chọn tiếp cận dịch kết hợp với chỉnh sửa mạng cho phù hợp đặc trưng tiếng Việt.
Khi lựa chọn và đề xuất cách tiếp cận này cho việc xây dựng Mạng từ tiếng Việt, chúng tôi có một số ràng buộc như sau:
(1) Thể hiện được những đặc trưng ngôn ngữ và văn hóa Việt Nam;
(2) Kế thừa và có sự tương ứng cao với Mạng từ tiếng Anh;
(3) Mạng từ tiếng Việt có thể ứng dụng ngay được và thể hiện được một cách hiệu quả trong một số ứng dụng chọn lọc;
(4) Dễ mở rộng và bảo trì trong tương lai.
Ràng buộc (1) là hiển nhiên vì đã là Mạng từ tiếng Việt thì phải mang đặc trưng ngôn ngữ và văn hóa Việt. Ràng buộc (2) được đặt ra để đảm bảo sự thuận tiện khi ứng dụng Mạng từ vào các bài toán như dịch máy hay truy vấn thông tin. Ràng buộc (3) đảm bảo rằng Mạng từ tiếng Việt tuy chưa đạt đến mức như tiếng Anh nhưng cũng không phải chỉ là mô hình trong phòng thí nghiệm, mà phải dùng ngay được cho một số ứng dụng quan trọng như tóm tắt văn bản hay tìm kiếm, có hạn chế trên một số miền nhất định. Ràng buộc (4) là quan trọng vì trong tương lai Mạng từ sẽ còn được và phải được mở rộng và nâng cấp.
Như đã nói, Mạng từ là một sản phẩm liên ngành của ngôn ngữ học, tâm lí học và khoa học máy tính mà trực tiếp nhất là ngôn ngữ học tính toán. Tuy nhiên, không thể phủ nhận được rằng những vấn đề nội dung cốt yếu nhất của nó đều liên quan một cách trực tiếp đến ngôn ngữ học. Do đó, về mặt phương pháp luận khoa học, việc định rõ các yêu cầu ngôn ngữ học đối với việc xây dựng Mạng từ là vô cùng cần thiết.
Những điểm đặc thù của từ vựng tiếng Việt được thể hiện trong Mạng từ tiếng Việt chủ yếu thuộc về hai phạm trù: phạm trù ngôn ngữ và phạm trù phi ngôn ngữ.
Ở phạm trù ngôn ngữ, những điểm đặc thù của tiếng Việt được thể hiện ở bình diện cấu tạo từ. Chính cơ chế cấu tạo từ theo phép ghép và phép láy yếu tố tạo nên những điểm đặc thù này. Do đó, Mạng từ tiếng Việt phải có:
Hệ thống từ ghép đẳng lập, ví dụ như: nhà cửa, quần áo, nhanh chóng, mau chóng,...
Hệ thống từ láy, ví dụ như máu me, xấu xí, xấu xa, đẹp đẽ,…
Hệ thống từ ghép chính phụ biệt loại, ví dụ như xe đạp, xe máy, cá rô, nhà sàn,…
Hệ thống từ ghép chính phụ biệt nghĩa, ví dụ như đen sì, đen bóng, đen nhánh,…
Tổ hợp ghép chính phụ trong tiếng Việt có các yếu tố từ pháp có giá trị danh hoá, ví dụ sự học, việc học, chuyện học, nỗi buồn, niềm vui,…
Ở phạm trù phi ngôn ngữ, phạm trù văn hóa - nhận thức, Mạng từ tiếng Việt sẽ phải ghi nhận một số hiện tượng đặc thù của riêng người Việt được thể hiện chủ yếu trong quan hệ bao nghĩa, thuộc nghĩa và quan hệ tổng nghĩa, phân nghĩa. Ví dụ như:
nghệ thuật > sân khấu > chèo/ tuồng,…
dân ca > quan họ/ ví dặm,…
lễ tết > tết Nguyên đán/ tết Trung thu,…
dép > dép lốp/ dép cao su,…
bếp > bếp Hoàng Cầm,…
dân tộc > Kinh/ Tày/ Thái,…
quần đảo > Hoàng Sa, Trường Sa,….
làng > Mộ Trạch/ Đường Lâm,…
nguyên thủ quốc gia > Hồ Chí Minh/ Phạm Văn Đồng,…
chợ > chợ Đồng Xuân/ chợ Bến Thành,…
thuộc tính > ….. > Chí Phèo/ Hoạn Thư,…
Các bước xây dựng Mạng từ Tiếng Việt.
Các quan hệ ngữ nghĩa chính trong Mạng từ tiếng Việt
Mạng từ giống như là một đồ thị rời rạc khổng lồ, trong đó mỗi nút là một loạt từ đồng nghĩa và mỗi cạnh là một quan hệ ngữ nghĩa nối các nút lại với nhau. Số lượng nghĩa của ngôn ngữ tự nhiên là vô hạn, số lượng quan hệ nghĩa của ngôn ngữ tự nhiên lại là n cái vô hạn. Trên thực tế, các Mạng từ thường chỉ xử lí khoảng 10 loại quan hệ ngữ nghĩa. Xét ở một phương diện nào đó, mạng từ cũng chỉ là một loại mô hình hóa giản đơn cái cấu trúc vô cùng phức tạp của từ vựng tinh thần (mental lexicon) của ngôn ngữ tự nhiên.
Quan hệ đồng nghĩa: Tồn tại trong cả ba lớp từ loại danh từ, động từ và tính từ, là quan hệ giữa những từ có nghĩa giống nhau hoặc gần giống nhau mà có thể thay thế cho nhau được trong một số ngữ cảnh sử dụng. Ví dụ: người – mình – cơ thể, dạ dày – bao tử, ăn – xơi – dùng,...
Quan hệ bao thuộc: Có mặt trong hệ thống danh từ của Mạng từ. Ví dụ: thực vật – hoa, hoa – hoa hồng, hoa hồng – hoa hồng bạch; công cụ – công cụ học tập, công cụ học tập – bút, bút – bút lông; động vật – gia súc, gia súc – chó, chó – chó Phú Quốc. Trong dãy những ví dụ dẫn ở đây, ở từng cặp từ một, những từ bên trái được xem là những từ bao (hypernym), còn những từ bên phải được xem là những từ thuộc (hyponyms).
Quan hệ tổng phân. Cũng là quan hệ chỉ có mặt ở hệ thống danh từ, và cùng với quan hệ bao thuộc, nó là quan hệ xương sống của hệ thống danh từ của Mạng từ. Quan hệ tổng phân là quan hệ giữa một từ tổng (holonym) và một từ phân (meronym); từ phân được xem như là một trong những bộ phận, thành viên,… của từ tổng. Ví dụ: cơ thể – đầu, đầu – mắt, mắt –lòng đen, lòng đen – con ngươi; cây – cành, cành – lá, lá – cuống (lá);
Quan hệ cách: Là quan hệ chủ yếu của lớp từ loại động từ, trong đó nghĩa của từ này (được gọi là từ bao) thể hiện cách thức hoạt động của từ kia (được gọi là từ cách/ troponym). Từ A có quan hệ cách với từ B tức là từ B là từ A theo một cách nào đó. Ví dụ như trong cặp quan hệ cách biến đổi – biến đổi trạng thái thì biến đổi trạng thái là một cách biến đổi, trong cặp quan hệ biến đổi trạng thái - chết thì chết là một cách biến đổi trạng thái, trong cặp quan hệ chết – tự tử thì tự tử là một cách chết.
Quan hệ trái nghĩa: Là quan hệ tồn tại chủ yếu ở lớp tính từ, giữa những từ ngược nhau hay đối lập loại trừ nhau về nghĩa. Ví dụ: đẹp – xấu, yêu – ghét, to – nhỏ, dài – ngắn, thơm – thối, sạch – bẩn,.... Trong Mạng từ, các tính từ được nối với nhau chủ yếu nhờ quan hệ trái nghĩa.
Quan hệ thuộc tính: Là quan hệ tồn tại giữa lớp từ loại danh từ chỉ thực thể (thường là thực thể trừu tượng, có tính liên quan tâm lí cao) và tính từ chỉ thuộc tính. Về bản chất, quan hệ thuộc tính có thể tồn tại giữa động từ và tính từ; nhưng kiểu quan hệ này nói chung khá phức tạp, nên thường không được ghi nhận. Đối với quan hệ thuộc tính giữa danh từ và tính từ, Mạng từ trước nhất thường chỉ ghi nhận và xử lí những cặp từ có quan hệ thuộc tính lưỡng trị trừu tượng kiểu như kích thước – to/ nhỏ, vận tốc – nhanh/ chậm, số lượng – nhiều/ ít, sức mạnh – yếu/ khoẻ,... Trong những ví dụ này, các từ đứng ở phía tay phải là những từ chỉ thức thể trừu tượng mang giá trị thuộc tính; những từ đứng ở phía tay trái là những từ chỉ giá trị thuộc tính.
Quan hệ nhân quả: Là quan hệ tồn tại trong lớp từ loại động từ. Ví dụ như triệu tập – họp, giết – chết, đập – vỡ, tìm – thấy,... Trong các cặp từ này, từ đứng phía tay trái thể hiện nguyên nhân, từ đứng phía tay phải thể hiện kết quả.
Quan hệ suy ra: Là quan hệ tồn tại trong lớp từ loại động từ, trong đó hành động được biểu thị ở từ này chỉ có thể tồn tại khi có xự xuất hiện hành động được biểu thị ở từ kia. Đó là quan hệ giữa những từ kiểu như, ngáy suy ra ngủ, ngáp ngủ suy ra buồn ngủ, gãi suy ra ngứa, gỡ suy ra rối, vá suy ra rách, bội ước suy ra cam kết,...
Khả năng ứng dụng của Mạng từ
Có thể chắc chắn một điều rằng, cho đến nay, trên thế giới vẫn chưa có một nguồn tài nguyên từ vựng trực tuyến được tổ chức dựa trên các quan hệ ngữ nghĩa nào lớn hơn, toàn diện, và hệ thống hơn Mạng từ.
Mạng từ nói chung trước hết là một tài nguyên từ vựng dành cho máy tính. Vì vậy, hàng loạt các công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên, liên quan đến lĩnh vực khoa học trí tuệ nhân tạo, đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể. Những công việc liên quan đến máy tính cần đến Mạng từ là dịch máy, trích rút và phục hồi thông tin, đo đạc ngữ nghĩa, tách từ, nhận dạng tiếng nói, tổng hợp tiếng nói, soạn thảo văn bản, kiểm tra lỗi chính tả, phân loại văn bản, tóm tắt văn bản, hỏi và trả lời tự động, xây dựng các nguồn tài nguyên từ vựng hay liên quan đến từ vựng hoặc sử dụng tới từ vựng dành riêng cho máy, xây dựng các mạng ngữ nghĩa,....
Xét từ góc độ ngôn ngữ học, với tư cách là một sản phẩm liên ngành ngôn ngữ học - khoa học máy tính - tâm lí học, Mạng từ ra đời là để kiểm chứng cho một số lí thuyết ngôn ngữ học tâm lí, tâm lí học tri nhận... về trí nhớ ngữ nghĩa được hình thành và phát triển vào giữa thế kỉ trước; đồng thời, nó cũng là một phần kết quả dẫn xuất từ các nghiên cứu thực nghiệm về bệnh học ngôn ngữ, thụ đắc ngôn ngữ,... Thậm chí, Mạng từ, nói như một số người từng nhận xét, được xem như là một công trình lớn nhất về từ vựng để minh chứng cho chủ nghĩa cấu trúc trong ngôn ngữ học thế kỉ XX (Geeraerts, 2010). Vì thế, trên thực tế, Mạng từ có thể được ứng dụng vào nhiều công việc liên quan đến việc nghiên cứu và giảng dạy tiếng. Mạng từ có thể được sử dụng như một cuốn từ điển trực tuyến để tra cứu từ vựng. Chẳng hạn. hiện nay hầu như tất cả các nguồn tài nguyên từ vựng đa ngữ (Anh - Việt, Anh - Trung, Anh - Đức, Anh - n,…), đơn ngữ dưới dạng trực tuyến hay điện từ đều đã sử dụng tới Mạng từ tiếng Anh.
Bởi Mạng từ của mỗi một ngôn ngữ có thể được xem như là một mô hình từ vựng tinh thần toàn diện và lớn nhất cho chính ngôn ngữ ấy, vì thế, nhiều công việc nghiên cứu và ứng dụng liên ngành ngôn ngữ học – tâm lí học (như nghiên cứu các phạm trù tâm lí – ngôn ngữ, các mã tâm lí, nhận thức trong quá trình phạm trù hoá hiện thực,...) đều phải cần đến Mạng từ. Mạng từ, đối với những ứng dụng như thế này, có thể vừa được xem như là những điểm xuất phát vừa được xem như là những điểm đích để người ta xây dựng và hoàn thiện. Vì là một mô hình từ vựng tinh thần, Mạng từ cũng có thể được sử dụng cho các công việc liên quan đến việc phục hồi ngôn ngữ, chữa các bệnh liên quan đến ngôn ngữ,…
Với từ cách là một cơ sở dữ liệu về nghĩa từ và các quan hệ ngữ nghĩa đầu tiên và hệ thố́ng nhất của ngôn ngữ, người ta có thể sử dụng phương pháp luận của Mạng từ để phát triển, biên soạn các loại từ điển ngữ văn, từ điển chuyên ngành thứ cấp, có thể sử dụng Mạng từ vào các công việc nghiên cứu ngôn ngữ nói chung và đối chiếu ngôn ngữ nói riêng…
------------
1 http://vienngonnguhoc.gov.vn/bai-viet/hoi-thao-khoa-hoc-huong-toi-viec-xay-dung-mang-tu-tieng-viet_581.aspx
2 http://wordnet.vn/vi/chi-tiet/tong-quan-ve-xay-dung-mang-tu-tieng-viet-18-1.html
Mạng từ (WordNet) - sản phẩm liên ngành chủ yếu của ngôn ngữ học, tâm lí học và khoa học máy tính là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/loạt đồng nghĩa tri nhận, mỗi loạt đồng nghĩa này thể hiện một khái niệm nghĩa riêng biệt; các loạt đồng nghĩa khác nhau có gắn kết với nhau nhờ vào các quan hệ ngữ nghĩa.
Ví dụ như từ mặt. Một nghĩa thường gặp của từ này là “phần phía trước của đầu người, kéo dài từ trán đến cằm, nơi có các bộ phận như mắt, mũi, mồm” thôi, ta cũng có thể kể ra hàng loạt từ mà nghĩa này có quan hệ trực tiếp. Chẳng hạn, nghĩa này sẽ có quan hệ ngữ nghĩa trực tiếp với những loạt đồng nghĩa có các từ đại diện là đầu, mắt, mũi, miệng, trán, cằm, má, mặt trái xoan, mặt vuông chữ điền,…. Mỗi từ có quan hệ nghĩa trực tiếp với nghĩa đang nói của từ mặt, đến lượt mình, lại có quan hệ ngữ nghĩa trực tiếp với rất nhiều từ khác nữa: từ đầu có quan hệ ngữ nghĩa trực tiếp với các từ tóc, gáy, tóc mai, thái dương, đỉnh đầu, cổ, mình, tay, chân, cơ thể,…; từ mắt có quan hệ ngữ nghĩa trực tiếp với các từ lông mày, lông mi, lòng đen, lòng trắng, nhìn, ngó, xem,… Cứ như vậy, từ/ nghĩa từ nào cũng có một tập hợp quan hệ ngữ nghĩa của riêng mình, chúng cứ có quan hệ dắt díu nhau mãi, tạo thành một mạng lưới quan hệ phức tạp theo các chiều hướng và tôn ti xác định.
Mạng từ của tiếng Hà Lan, trong đó, mỗi nút là một loạt từ đồng nghĩa, các nút này được nối với nhau nhờ quan hệ ngữ nghĩa.
Trạng thái hiện nay của các Mạng từ nói chung mới chỉ ghi nhận bốn lớp từ loại chính là danh từ, động từ, tính từ và trạng từ. Có thể nói rằng, cho đến thời điểm này, Mạng từ là một trong những nguồn tài nguyên từ vựng trực tuyến dành cho máy tính lớn nhất và quan trọng nhất.
Lịch sử của Mạng từ
Năm 1978, George Miller, giáo sư ngôn ngữ học tâm lí tại Đại học Princeton, bắt đầu phát triển một cơ sở dữ liệu về từ và mối quan hệ ngữ nghĩa giữa chúng ở trong tiếng Anh. Cơ sở dữ liệu từ vựng này có thể được xem như là một loại mô hình từ vựng tinh thần và được gọi là Mạng từ. Mạng từ tiếng Anh chính là Mạng từ đầu tiên trên thế giới. Hiện nay phiên bản 3.1 là phiên bản mới nhất của Mạng từ tiếng Anh, ra mắt người sử dụng vào năm 2012 gồm 155.287 từ, với 117.659 loạt đồng nghĩa gồm 206.941 cặp nghĩa từ, tồn tại dưới dạng nén với kích thước 12MB. Với phiên bản 3.1, trong Anh ngữ không thể có một nguồn ngữ liệu từ vựng nào trực tuyến tốt hơn, đầy đủ hơn (về cách giải thích nghĩa theo lối tôn ti, cách định vị, định trị quan hệ ngữ nghĩa, về việc cung cấp thông tin bách khoa,…), và lớn hơn (xét về số lượng đơn vị từ vựng và số lượng nghĩa được ghi nhận)…
Sau khi ra đời, bên cạnh việc sử dụng vào các mục đích tra cứu thông thường, Mạng từ tiếng Anh được sử dụng rộng rãi trong nhiều ứng dụng liên quan đến xử lí ngôn ngữ tự nhiên trên toàn thế giới và nó đã thúc đẩy, phát triển nhiều nghiên cứu mới.
Với thành công và tầm quan trọng của Mạng từ tiếng Anh này, người ta nhận thấy cần phải phát triển các nguồn tài nguyên từ vựng tương tự như vậy cho các ngôn ngữ khác. Thêm vào đó, nếu như các Mạng từ của các ngôn ngữ khác được xây dựng, người ta sẽ tạo ra được một mạng lưới tài nguyên từ vựng có sự liên kết thống nhất với nhau, giúp cho việc nghiên cứu và ứng dụng được phát triển tốt hơn. Vì thế, các nhà ngôn ngữ học, tin học và tâm lí học Châu Âu đã bắt tay vào việc xây dựng dự án Mạng từ Châu Âu (EuroWordNet). Năm 1996, dưới sự tài trợ của EU, Mạng từ Châu Âu chính thức được bắt đầu, với mục tiêu là phát triển một Mạng từ Châu Âu chung cho các tiếng Hà Lan, Tây Ban Nha và Ý, và liên kết Mạng từ chung này với Mạng từ tiếng Anh để có thể tạo thành một cơ sở dữ liệu từ vựng đa ngôn ngữ. Mạng từ Châu Âu (vốn được xây dựng dựa trên phiên bản 1.5 của Mạng từ tiếng Anh) không chỉ có lõi tương thích với Mạng từ tiếng Anh, mà còn được mở rộng bổ sung thêm nhiều về mặt đối tượng từ vựng và các quan hệ ngữ nghĩa. Năm 1997, dự án đã được mở rộng để phát triển cho các tiếng Đức, Pháp, Czech, và Estonia. Phiên bản Mạng từ Châu Âu đầu tiên đã ra đời vào cuối năm 1999.
Sau Mạng từ Châu Âu, một mạng từ đa ngữ đầu tiên trên thế giới, Mạng từ Châu Á (Asian WordNet) cũng đã được phát triển. Mạng từ Châu Á được thiết kế chủ yếu dựa trên Mạng từ tiếng Anh đơn ngữ và các nguồn từ điển song ngữ bản ngữ với tiếng Anh. Hiện có trên 10 ngôn ngữ trong Mạng từ Châu Á. Các ngôn ngữ được phát triển trong Mạng từ Châu Á có tỉ lệ như sau: Bengal (0.90%) Indonesia (8.17%), Nhật (30.35%), Hàn Quốc (35.93%), Lào (33.05%), Mông Cổ (1.38%), Myanmar (16.95%), Nepal (0.03%), Sinhala (0.23%), Sundanese (0.06%), Thái (40.27%), và Việt (10.40%) (số liệu của Virach Sornlertlamvanich, 2010).
Hiện nay trên thế giới có tới gần 100 ngôn ngữ, dựa trên Mạng từ gốc là Mạng từ tiếng Anh, đã xây dựng được mạng từ riêng của mình với mức độ hoàn thiện rất khác nhau. Các ngôn ngữ lớn như Nga, Trung, Nhật cũng đều đã có mạng từ riêng của mình.
Bài toán Mạng từ tiếng Việt
Bài toán xây dựng mạng từ dành cho tiếng Việt đã được chúng tôi đặt ra cách đây vài năm. Năm 2014, chúng tôi đã tham gia tổ chức Hội thảo khoa học chuyên đề Hướng tới việc xây dựng Mạng từ tiếng Việtt. Hội thảo đã thảo luận một cách chính thức làm thế nào để xây dựng được một mạng từ dành riêng cho tiếng Việt. Theo yêu cầu của bài toán này, Mạng từ tiếng Việt sẽ có kích thước gồm 30.000 loạt đồng nghĩa, tương đương 50.000 từ trong đó có 30.000 là từ tiếng Việt thông dụng; có các giao diện lập trình ứng dụng (API), cho phép người lập trình sử dụng Mạng từ này bằng một số ngôn ngữ như C++, Java, C#; và ghi nhận và xử lí ba lớp từ loại thực từ, đó là: danh từ, động từ và tính từ. Ngoài các đơn vị được gọi là từ một cách chân chính, trong các loạt đồng nghĩa của Mạng từ tiếng Việt có thể có cả các cụm từ, ngữ định danh vốn có giá trị tương ứng như từ; và bên cạnh việc ghi nhận và xử lí các từ chung, nó còn ghi nhận và xử lí cả các từ riêng, tức các danh từ riêng. Ở trạng thái hiện tại, Mạng từ tiếng Việt có kích thước gồm hơn 60.000 loạt đồng nghĩa, tương đương gần 100.000 đơn vị từ vựng, hơn 60.000 quan hệ nghĩa.
Biểu diễn đồ hình của từ “làm” trong Mạng từ Tiếng Việt. Nguồn: wordnet.vn.
Các ràng buộc và yêu cầu khi xây dựng Mạng từ tiếng Việt
Sau khi đã khảo sát đặc điểm cũng như phương pháp xây dựng Mạng từ tiếng Anh, Mạng từ Châu Âu, và Mạng từ Châu Á, chúng tôi quyết định chọn tiếp cận dịch kết hợp với chỉnh sửa mạng cho phù hợp đặc trưng tiếng Việt.
Khi lựa chọn và đề xuất cách tiếp cận này cho việc xây dựng Mạng từ tiếng Việt, chúng tôi có một số ràng buộc như sau:
(1) Thể hiện được những đặc trưng ngôn ngữ và văn hóa Việt Nam;
(2) Kế thừa và có sự tương ứng cao với Mạng từ tiếng Anh;
(3) Mạng từ tiếng Việt có thể ứng dụng ngay được và thể hiện được một cách hiệu quả trong một số ứng dụng chọn lọc;
(4) Dễ mở rộng và bảo trì trong tương lai.
Ràng buộc (1) là hiển nhiên vì đã là Mạng từ tiếng Việt thì phải mang đặc trưng ngôn ngữ và văn hóa Việt. Ràng buộc (2) được đặt ra để đảm bảo sự thuận tiện khi ứng dụng Mạng từ vào các bài toán như dịch máy hay truy vấn thông tin. Ràng buộc (3) đảm bảo rằng Mạng từ tiếng Việt tuy chưa đạt đến mức như tiếng Anh nhưng cũng không phải chỉ là mô hình trong phòng thí nghiệm, mà phải dùng ngay được cho một số ứng dụng quan trọng như tóm tắt văn bản hay tìm kiếm, có hạn chế trên một số miền nhất định. Ràng buộc (4) là quan trọng vì trong tương lai Mạng từ sẽ còn được và phải được mở rộng và nâng cấp.
Như đã nói, Mạng từ là một sản phẩm liên ngành của ngôn ngữ học, tâm lí học và khoa học máy tính mà trực tiếp nhất là ngôn ngữ học tính toán. Tuy nhiên, không thể phủ nhận được rằng những vấn đề nội dung cốt yếu nhất của nó đều liên quan một cách trực tiếp đến ngôn ngữ học. Do đó, về mặt phương pháp luận khoa học, việc định rõ các yêu cầu ngôn ngữ học đối với việc xây dựng Mạng từ là vô cùng cần thiết.
Những điểm đặc thù của từ vựng tiếng Việt được thể hiện trong Mạng từ tiếng Việt chủ yếu thuộc về hai phạm trù: phạm trù ngôn ngữ và phạm trù phi ngôn ngữ.
Ở phạm trù ngôn ngữ, những điểm đặc thù của tiếng Việt được thể hiện ở bình diện cấu tạo từ. Chính cơ chế cấu tạo từ theo phép ghép và phép láy yếu tố tạo nên những điểm đặc thù này. Do đó, Mạng từ tiếng Việt phải có:
Hệ thống từ ghép đẳng lập, ví dụ như: nhà cửa, quần áo, nhanh chóng, mau chóng,...
Hệ thống từ láy, ví dụ như máu me, xấu xí, xấu xa, đẹp đẽ,…
Hệ thống từ ghép chính phụ biệt loại, ví dụ như xe đạp, xe máy, cá rô, nhà sàn,…
Hệ thống từ ghép chính phụ biệt nghĩa, ví dụ như đen sì, đen bóng, đen nhánh,…
Tổ hợp ghép chính phụ trong tiếng Việt có các yếu tố từ pháp có giá trị danh hoá, ví dụ sự học, việc học, chuyện học, nỗi buồn, niềm vui,…
Ở phạm trù phi ngôn ngữ, phạm trù văn hóa - nhận thức, Mạng từ tiếng Việt sẽ phải ghi nhận một số hiện tượng đặc thù của riêng người Việt được thể hiện chủ yếu trong quan hệ bao nghĩa, thuộc nghĩa và quan hệ tổng nghĩa, phân nghĩa. Ví dụ như:
nghệ thuật > sân khấu > chèo/ tuồng,…
dân ca > quan họ/ ví dặm,…
lễ tết > tết Nguyên đán/ tết Trung thu,…
dép > dép lốp/ dép cao su,…
bếp > bếp Hoàng Cầm,…
dân tộc > Kinh/ Tày/ Thái,…
quần đảo > Hoàng Sa, Trường Sa,….
làng > Mộ Trạch/ Đường Lâm,…
nguyên thủ quốc gia > Hồ Chí Minh/ Phạm Văn Đồng,…
chợ > chợ Đồng Xuân/ chợ Bến Thành,…
thuộc tính > ….. > Chí Phèo/ Hoạn Thư,…
Các bước xây dựng Mạng từ Tiếng Việt.
Các quan hệ ngữ nghĩa chính trong Mạng từ tiếng Việt
Mạng từ giống như là một đồ thị rời rạc khổng lồ, trong đó mỗi nút là một loạt từ đồng nghĩa và mỗi cạnh là một quan hệ ngữ nghĩa nối các nút lại với nhau. Số lượng nghĩa của ngôn ngữ tự nhiên là vô hạn, số lượng quan hệ nghĩa của ngôn ngữ tự nhiên lại là n cái vô hạn. Trên thực tế, các Mạng từ thường chỉ xử lí khoảng 10 loại quan hệ ngữ nghĩa. Xét ở một phương diện nào đó, mạng từ cũng chỉ là một loại mô hình hóa giản đơn cái cấu trúc vô cùng phức tạp của từ vựng tinh thần (mental lexicon) của ngôn ngữ tự nhiên.
Quan hệ đồng nghĩa: Tồn tại trong cả ba lớp từ loại danh từ, động từ và tính từ, là quan hệ giữa những từ có nghĩa giống nhau hoặc gần giống nhau mà có thể thay thế cho nhau được trong một số ngữ cảnh sử dụng. Ví dụ: người – mình – cơ thể, dạ dày – bao tử, ăn – xơi – dùng,...
Quan hệ bao thuộc: Có mặt trong hệ thống danh từ của Mạng từ. Ví dụ: thực vật – hoa, hoa – hoa hồng, hoa hồng – hoa hồng bạch; công cụ – công cụ học tập, công cụ học tập – bút, bút – bút lông; động vật – gia súc, gia súc – chó, chó – chó Phú Quốc. Trong dãy những ví dụ dẫn ở đây, ở từng cặp từ một, những từ bên trái được xem là những từ bao (hypernym), còn những từ bên phải được xem là những từ thuộc (hyponyms).
Quan hệ tổng phân. Cũng là quan hệ chỉ có mặt ở hệ thống danh từ, và cùng với quan hệ bao thuộc, nó là quan hệ xương sống của hệ thống danh từ của Mạng từ. Quan hệ tổng phân là quan hệ giữa một từ tổng (holonym) và một từ phân (meronym); từ phân được xem như là một trong những bộ phận, thành viên,… của từ tổng. Ví dụ: cơ thể – đầu, đầu – mắt, mắt –lòng đen, lòng đen – con ngươi; cây – cành, cành – lá, lá – cuống (lá);
Quan hệ cách: Là quan hệ chủ yếu của lớp từ loại động từ, trong đó nghĩa của từ này (được gọi là từ bao) thể hiện cách thức hoạt động của từ kia (được gọi là từ cách/ troponym). Từ A có quan hệ cách với từ B tức là từ B là từ A theo một cách nào đó. Ví dụ như trong cặp quan hệ cách biến đổi – biến đổi trạng thái thì biến đổi trạng thái là một cách biến đổi, trong cặp quan hệ biến đổi trạng thái - chết thì chết là một cách biến đổi trạng thái, trong cặp quan hệ chết – tự tử thì tự tử là một cách chết.
Quan hệ trái nghĩa: Là quan hệ tồn tại chủ yếu ở lớp tính từ, giữa những từ ngược nhau hay đối lập loại trừ nhau về nghĩa. Ví dụ: đẹp – xấu, yêu – ghét, to – nhỏ, dài – ngắn, thơm – thối, sạch – bẩn,.... Trong Mạng từ, các tính từ được nối với nhau chủ yếu nhờ quan hệ trái nghĩa.
Quan hệ thuộc tính: Là quan hệ tồn tại giữa lớp từ loại danh từ chỉ thực thể (thường là thực thể trừu tượng, có tính liên quan tâm lí cao) và tính từ chỉ thuộc tính. Về bản chất, quan hệ thuộc tính có thể tồn tại giữa động từ và tính từ; nhưng kiểu quan hệ này nói chung khá phức tạp, nên thường không được ghi nhận. Đối với quan hệ thuộc tính giữa danh từ và tính từ, Mạng từ trước nhất thường chỉ ghi nhận và xử lí những cặp từ có quan hệ thuộc tính lưỡng trị trừu tượng kiểu như kích thước – to/ nhỏ, vận tốc – nhanh/ chậm, số lượng – nhiều/ ít, sức mạnh – yếu/ khoẻ,... Trong những ví dụ này, các từ đứng ở phía tay phải là những từ chỉ thức thể trừu tượng mang giá trị thuộc tính; những từ đứng ở phía tay trái là những từ chỉ giá trị thuộc tính.
Quan hệ nhân quả: Là quan hệ tồn tại trong lớp từ loại động từ. Ví dụ như triệu tập – họp, giết – chết, đập – vỡ, tìm – thấy,... Trong các cặp từ này, từ đứng phía tay trái thể hiện nguyên nhân, từ đứng phía tay phải thể hiện kết quả.
Quan hệ suy ra: Là quan hệ tồn tại trong lớp từ loại động từ, trong đó hành động được biểu thị ở từ này chỉ có thể tồn tại khi có xự xuất hiện hành động được biểu thị ở từ kia. Đó là quan hệ giữa những từ kiểu như, ngáy suy ra ngủ, ngáp ngủ suy ra buồn ngủ, gãi suy ra ngứa, gỡ suy ra rối, vá suy ra rách, bội ước suy ra cam kết,...
Khả năng ứng dụng của Mạng từ
Có thể chắc chắn một điều rằng, cho đến nay, trên thế giới vẫn chưa có một nguồn tài nguyên từ vựng trực tuyến được tổ chức dựa trên các quan hệ ngữ nghĩa nào lớn hơn, toàn diện, và hệ thống hơn Mạng từ.
Mạng từ nói chung trước hết là một tài nguyên từ vựng dành cho máy tính. Vì vậy, hàng loạt các công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên, liên quan đến lĩnh vực khoa học trí tuệ nhân tạo, đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể. Những công việc liên quan đến máy tính cần đến Mạng từ là dịch máy, trích rút và phục hồi thông tin, đo đạc ngữ nghĩa, tách từ, nhận dạng tiếng nói, tổng hợp tiếng nói, soạn thảo văn bản, kiểm tra lỗi chính tả, phân loại văn bản, tóm tắt văn bản, hỏi và trả lời tự động, xây dựng các nguồn tài nguyên từ vựng hay liên quan đến từ vựng hoặc sử dụng tới từ vựng dành riêng cho máy, xây dựng các mạng ngữ nghĩa,....
Xét từ góc độ ngôn ngữ học, với tư cách là một sản phẩm liên ngành ngôn ngữ học - khoa học máy tính - tâm lí học, Mạng từ ra đời là để kiểm chứng cho một số lí thuyết ngôn ngữ học tâm lí, tâm lí học tri nhận... về trí nhớ ngữ nghĩa được hình thành và phát triển vào giữa thế kỉ trước; đồng thời, nó cũng là một phần kết quả dẫn xuất từ các nghiên cứu thực nghiệm về bệnh học ngôn ngữ, thụ đắc ngôn ngữ,... Thậm chí, Mạng từ, nói như một số người từng nhận xét, được xem như là một công trình lớn nhất về từ vựng để minh chứng cho chủ nghĩa cấu trúc trong ngôn ngữ học thế kỉ XX (Geeraerts, 2010). Vì thế, trên thực tế, Mạng từ có thể được ứng dụng vào nhiều công việc liên quan đến việc nghiên cứu và giảng dạy tiếng. Mạng từ có thể được sử dụng như một cuốn từ điển trực tuyến để tra cứu từ vựng. Chẳng hạn. hiện nay hầu như tất cả các nguồn tài nguyên từ vựng đa ngữ (Anh - Việt, Anh - Trung, Anh - Đức, Anh - n,…), đơn ngữ dưới dạng trực tuyến hay điện từ đều đã sử dụng tới Mạng từ tiếng Anh.
Bởi Mạng từ của mỗi một ngôn ngữ có thể được xem như là một mô hình từ vựng tinh thần toàn diện và lớn nhất cho chính ngôn ngữ ấy, vì thế, nhiều công việc nghiên cứu và ứng dụng liên ngành ngôn ngữ học – tâm lí học (như nghiên cứu các phạm trù tâm lí – ngôn ngữ, các mã tâm lí, nhận thức trong quá trình phạm trù hoá hiện thực,...) đều phải cần đến Mạng từ. Mạng từ, đối với những ứng dụng như thế này, có thể vừa được xem như là những điểm xuất phát vừa được xem như là những điểm đích để người ta xây dựng và hoàn thiện. Vì là một mô hình từ vựng tinh thần, Mạng từ cũng có thể được sử dụng cho các công việc liên quan đến việc phục hồi ngôn ngữ, chữa các bệnh liên quan đến ngôn ngữ,…
Với từ cách là một cơ sở dữ liệu về nghĩa từ và các quan hệ ngữ nghĩa đầu tiên và hệ thố́ng nhất của ngôn ngữ, người ta có thể sử dụng phương pháp luận của Mạng từ để phát triển, biên soạn các loại từ điển ngữ văn, từ điển chuyên ngành thứ cấp, có thể sử dụng Mạng từ vào các công việc nghiên cứu ngôn ngữ nói chung và đối chiếu ngôn ngữ nói riêng…
------------
1 http://vienngonnguhoc.gov.vn/bai-viet/hoi-thao-khoa-hoc-huong-toi-viec-xay-dung-mang-tu-tieng-viet_581.aspx
2 http://wordnet.vn/vi/chi-tiet/tong-quan-ve-xay-dung-mang-tu-tieng-viet-18-1.html
Mạng từ Tiếng Việt hiện đang tồn tại ở địa chỉ http://wordnet.vn. Đây là một sản phẩm của đề tài khoa học cấp Nhà nước mã số KC.01.20/11-15 được thực hiện từ năm 2013-2015. Đề tài này do công ty Naiscorp (từng rất nổi tiếng với công cụ tìm kiếm Sóc bay và được Google đề xuất mua lại với giá 25 triệu USD vào năm 2009) chủ trì, PGS. TS Nguyễn Phương Thái, Đại học Công nghệ, ĐH Quốc gia Hà Nội làm chủ nhiệm đề tài. Nhưng đây mới chỉ là một phiên bản đầu được ưu tiên thiết kế cho các công việc liên quan đến xử lí ngôn ngữ. Để có được một Mạng từ tiếng Việt tinh, lí tưởng như tiếng Mạng từ tiếng Anh và để có thể sử dụng tra cứu trực tuyến như một từ điển ngữ văn hoàn hảo, cần phải đầu tư thêm rất nhiều công sức, thời gian và của cải.]
Nguồn: Bức tranh khái quát về Mạng từ và Mạng từ tiếng Việt (tiasang)
----------
"Cho nên có thể nghĩ tới việc cung cấp điều kiện để mọi người có thể tự học sau khi rời khỏi nhà trường, nói rõ hơn là phải xác lập một hệ thống tiếng Việt có qui chuẩn và có những cách thức phù hợp để xã hội hóa nó. Một Từ điển tiếng Việt tổng hợp online có kèm chữ Hán, chữ Nôm và nguyên ngữ của những từ nước ngoài du nhập được Việt hóa để mọi người tra cứu hay tham khảo miễn phí trong hoàn cảnh mạng internet hiện nay hoàn toàn là một việc trong tầm tay.
Về đại thể, với một từ điển có nội dung tích hợp như thế người không biết chữ Hán cũng có thể thấy rõ hai từ tham quan (quan lại tham lam) và tham quan (tham dự quan sát) có tự hình khác nhau và ít nhất cũng không lầm từ sau thành thăm quan, người không biết tiếng Hoa được giải thích xường sám là trường sam (áo vạt dài) đọc theo âm Hoa Hán giọng Quảng Đông thì sẽ không nói hay viết là sườn xám nữa. Học sinh sẽ viết là giấu diếm chứ không viết là giấu giếm nhờ hiểu sự khác biệt về âm đọc giữa d+iếm và gi+ếm, một số nhà báo cũng sẽ không tiếp tục đưa tin ai đó treo cổ hay nhảy xuống sông tự vẫn vì họ đã biết chữ vẫn có bộ đao tức cắt cổ bằng dao, hai lối tự chết kia là tự ải và tự trầm…"
(Cao Tự Thanh)
Nguồn: Nghĩ về việc dạy từ Việt Hán trong tiếng Việt (nguoidothi)
------------
Nhiều từ ngữ được giới trẻ dùng với nét nghĩa mới hết sức thú vị, độc đáo, nên chăng cần phải ghi nhận, xem xét bổ sung vào từ vựng tiếng Việt?
Một số từ ngữ tuy mới xuất hiện trong thời gian ngắn, nhưng tần số sử dụng tăng vọt đến kinh ngạc, không chỉ hạn hẹp trong phạm vi giới trẻ, mà lan tỏa đến mọi giới trong xã hội, hầu như không mấy ai là không hiểu theo nét nghĩa chuyển mới định hình ấy.
Chẳng hạn như từ “teens” khi gia nhập vào vốn từ tiếng Việt thì đều được hiểu nghĩa rộng hơn, chỉ chung cho cả giới trẻ chứ không hạn định như nghĩa nguyên gốc trong tiếng Anh là tuổi thanh thiếu niên, tuổi thanh xuân (từ 13 - 19) tuổi.
“Nổ”, “bệnh nổ” với nghĩa là nói khoác, khoe khoang dối trá, ba xạo, khoe mẽ, thậm xưng về những cái mình không có.
Hay từ “chảnh” - tự phụ, kênh kiệu, kiêu căng, cho mình là hơn người, coi thường người khác. Đi kèm theo từ “chảnh” còn có “chảnh chó” (nghĩa phê phán, tiêu cực), “sang chảnh” (nghĩa khen ngợi, tích cực).
Ngoài ra còn nhiều từ ngữ khác được dùng với nghĩa mới, có liên quan hoặc hoàn toàn thoát ly với nghĩa gốc của từ/ yếu tố tạo từ như: “sống ảo” - khoe khoang (đồ vật, nhan sắc, cuộc sống...) thái quá trên mạng internet, trong khi thực tế hoàn toàn không phải như vậy, thậm chí còn ngược lại.
“Sửu nhi” (trẻ trâu) là một từ Hán – Việt, chỉ người có tính cách trẻ con, thiếu chín chắn, thích thể hiện ra vẻ người lớn, hành động thái quá, đôi khi là lố bịch… trước một hoàn cảnh, sự vật – hiện tượng nào đó.
“Bá đạo” là một từ Hán – Việt mang ý nghĩa: không có đối thủ, không ai sánh bằng (bá chủ một vùng).
“Ném đá” là hành động gay gắt, kịch liệt phản đối một người, một vấn đề hay một hành động nào đó với thái độ bất bình, bức xúc cao độ, hoặc chỉ sự đả kích tập thể vào một đối tượng cụ thể, có những hành động làm trái ý, chướng mắt (thông thường là ở trên mạng) bằng cách nói móc mỉa, miệt thị, chửi bới.
“Chém gió” chỉ cách nói chuyện huyên thuyên, phét lác, nói không có cơ sở, mục đích mua vui cho mọi người hoặc nhằm cường điệu một sự việc nào đó (Có ý kiến cho rằng xuất phát từ hình ảnh người nói thường kèm hành động tay vung lên, chém xuống theo nhịp điệu lời nói, như là chém trong không khí.).
Từ “tám” hay tổ hợp “bà tám” để chỉ việc tán gẫu kéo dài, chỉ người nhiều chuyện, lắm lời.
“Gấu” (người yêu), “diễn/ diễn sâu” (đóng kịch một cách giả tạo, làm ra vẻ tựa như người thật, việc thật), “của chùa” (đồ vật, của cải không phải của mình, nên dùng tự nhiên, thoải mái, không biết tiếc, không có trách nhiệm), “chặt chém/ chặt đẹp/ chém đẹp” (bán giá quá đắt, bán với giá cắt cổ), “bèo” (giá cả quá rẻ, quá thấp, ví như bèo, hàm ý coi thường), “cháy chợ” (chợ hết sạch loại hàng nào đó, không còn để bán ra trong khi còn nhiều người muốn mua)
Nguồn: Có nên đưa “chảnh”, “nổ” vào từ vựng tiếng Việt? (vietnamnet)
------------
"Thật sự không có nhu cầu cải cách hoặc cách mạng chính tả mà điều có thể làm là những điều chỉnh chính xác, giới hạn, tôn trọng lịch sử cũng như bản chất của ngôn ngữ , trong quá khứ và trong tương lai của ngôn ngữ.. .khiến sự sử dụng trở nên vững chắc, thoải mái.
Song thống nhất chính tả là cần thiết. Ý thức viết đúng chính tả là ý thức văn hóa. (2)
Ở các nước Anh, Pháp, Đức…trên các ấn phẩm luôn hoàn hảo về chính tả. Trên máy vi tính có chế độ kiểm tra chính tả và văn phạm.
Một từ có 2 cách viết là chuyện có thể xẩy, điều phải làm là chúng ta thống nhất trước.
Thói quen, truyền thống, thẩm mỹ, ngữ nghĩa, là những yếu tố quan trọng.
Chính tả đã thành hình, hợp lý hay không thì để nó tự sửa mà không cần đến cào ngang định hướng.
Ngạn ngữ có câu: “Chớ dời một vạch mốc đá xây cũ do tiền nhân dựng lên”"Nguồn: Chuyện I ngắn Y dài - Quy định và cải cách (VHNA)