Phát triển AI hỗ trợ đọc dịch ngôn ngữ cổ đại

Diễn đàn kinh tế thế giới: Robot sẽ thay thế khoảng 85 triệu việc làm trong vòng 5 năm tới

AI Trung Quốc cho thấy con người già nhanh nhất ở tuổi 40

Các điểm nhấn được xác định trên một tấm sét Elamites lấy từ bộ sưu tập thành cổ Persepolis. Nguồn: Viện Phương Đông – ĐH Chicago.

25 thế kỷ trước, mọi “giấy tờ” của triều đình Achaemenid tại Đế quốc Ba Tư đều được ghi lại trên các tấm đất sét – và hàng vạn tấm trong số đó đã được phát hiện nguyên vẹn vào năm 1933 bởi các nhà khảo cổ học tại Viện Phương Đông thuộc Đại học Chicago – Hoa Kỳ. Qua nhiều thập kỷ, các nhà nghiên cứu đã bỏ ra nhiều công sức để tìm hiểu và phiên dịch nội dung từng văn bản cổ này. Tuy vậy, quá trình phiên dịch thủ công rất khó khăn, thường kéo dài và dễ mắc lỗi.

Từ thập niên 1990, công việc của các nhà khoa học đã có thêm sự hỗ trợ của máy tính – dù không đạt nhiều thành công, một phần bởi vì tính chất ba chiều của văn bản trên đất sét và sự phức tạp của hệ thống chữ hình nêm. Nhưng mới đây, một đột phá công nghệ của ĐH Chicago có thể đã đem tới chìa khóa mở ra khả năng phiên dịch tự động các văn bản này, cũng như cho phép các nhà khoa học có thể rảnh tay thực hiện các phân tích sâu hơn. Qua đó, giúp chúng ta hé mở thêm nhiều thông tin về lịch sử, xã hội và ngôn ngữ thời Achaemenid.

Dự án DeepScribe được thành lập vào năm 2019 với sự cộng tác giữa các chuyên gia của Viện Phương Đông (OI) và Khoa Khoa học Máy tính và nhận được tài trợ từ Trung tâm Dữ liệu và Tin học – ĐH Chicago (CDAC). Khởi đầu với bộ dữ liệu 6.000 hình ảnh từ Kho lưu trữ thành cổ Persepolis, dự án sẽ xây dựng một mô hình học máy “đọc” các tấm đất sét trong bộ sưu tập, và cho ra đời một công cụ cho phép các nhà khảo cổ học ứng dụng với các loại ngôn ngữ cổ khác.

“Nếu chúng ta có thể phát triển một công cụ vừa linh hoạt vừa có thể ứng dụng rộng rãi cho các hình thức chữ viết và thời đại khác nhau, đó sẽ trở thành bước ngoặt lớn trong giới nghiên cứu,” PGS. Susanne Paulus, chuyên gia Assyria học tại ĐH Chicago, nói.

Độ chính xác 80%

Dự án DeepScribe được thai nghén khi Paulus, Sandra Schloen và Miller Prosser từ OI có cuộc gặp gỡ với PGS Sanjay Krishnan trong một sự kiện về nghiên cứu nhân văn số. Schloen và Prosser có vai trò quản lý OCHRE, một cơ sở dữ liệu trực tuyến của Viện tập hợp và sắp xếp tư liệu của các cuộc khai quật khảo cổ và các hoạt động nghiên cứu khác. Trong khi đó, Krishman nghiên cứu ứng dụng kỹ thuật AI và học sâu vào phân tích các hình thức dữ liệu phức tạp. Sự tương hợp giữa hai bên đã dọn đường cho khả năng hợp tác.

Bộ dữ liệu huấn luyện được lấy từ kết quả nghiên cứu suốt 80 năm của OI và ĐH Chicago, cũng như dự án gần đây nhằm số hóa bộ sưu tập văn bản đất sét bằng ảnh chụp có độ phân giải cao – với khối lượng hiện đã lên đến 60 terabyte và vẫn tiếp tục mở rộng – trước khi chúng được trả về Iran. Tận dụng bộ sưu tập này, các nhà khoa học đã biên soạn một từ điển tiếng Elamite viết trên các tấm sét, cũng như cho sinh viên hỗ trợ xây dựng một bộ dữ liệu gồm hơn 100 nghìn “điểm nóng” hay là các dấu hiệu riêng đã xác định.

Dựa trên bộ dữ liệu này, Krishnan đã huấn luyện một mô hình học máy mới tương tự như mô hình sử dụng ở các dự án thị giác máy tính khác. Khi thử nghiệm với các tấm sét không nằm trong bộ dữ liệu gốc, mô hình này có thể phiên dịch các ký tự hình nêm với độ chính xác lên đến 80%. Giai đoạn nghiên cứu tiếp theo sẽ xem xét vấn đề của 20% sai số để tìm cách nâng độ chính xác lên cao hơn nữa.

Nội dung của nhiều tấm sét thực ra chỉ ghi chép hoạt động mua bán, giống như “một tập hóa đơn siêu thị vậy, theo PGS. Paulus. “Nếu như máy tính có thể phiên dịch và xác định những đoạn thông tin lặp đi lặp lại và để lại cho các chuyên gia các đoạn phức tạp như tên địa danh, động từ, hay các từ cần giải nghĩa… thế cũng đã rất được việc rồi. Còn nếu như máy tính không thể quyết định cách đọc văn bản, nó vẫn có thể gửi về cho chúng ta các phương án khả thi nhất hay xác suất – như vậy cũng là một khởi đầu tốt cho nhà nghiên cứu. ”

Tham vọng lớn hơn của nhóm là sẽ biến DeepScribe thành một công cụ đọc và phiên dịch đa năng mà họ có thể chia sẻ với các nhà khảo cổ khác. Ví dụ như mô hình hiện tại có thể được huấn luyện lại cho các ngôn ngữ sử dụng văn tự hình nêm khác ngoài tiếng Elamites; hoặc huấn luyện để tự động hoàn thiện các nội dung văn bản bị khuyết thiếu. Một mô hình học máy như vậy còn có thể giúp xác định niên đại hay nguồn gốc của tấm sét hay các hiện vật khác, vấn đề vốn trước nay phải dựa vào phân tích hóa học.

Bích Diệp