Ngoại suy tri thức (Knowledge Extrapolation) cho đồ thị tri thức (Knowledge Graphs)

Động lực nghiên cứu

Trong nhiều ứng dụng thực tế như các cơ sở dữ liệu đồ thị (graph database systems), hệ thống gợi ý (recommendation systems), hay hệ thống trả lời câu hỏi (question answering sytems), đồ thị tri thức (knowledge graphs - KG) đóng vai trò là nguồn tri thức giá trị. Có nhiều hướng tiếp cận cho các phương pháp khai thác loại cơ sở tri thức này, và trong đó hướng tiếp cận nhúng đồ thị tri thức (knowledge graph embedding - KGE) là một trong những hướng tiếp cận khả thi và hiệu quả cho nhiều tác vụ downstream như dự đoán liên kết (link prediction/ missing fact completion), hiệu chỉnh thực thể (entity alignment). Tuy nhiên, các phương pháp KGE vẫn phải đối mặt với nhiều vấn đề và thách thức, trong đó vấn đề xử lý các thực thể hay quan hệ chưa biết (unseen objects - entities/ relations) trong quá trình đánh giá/ triển khai mô hình là một trong những khó khăn đó.

Lấy động lực từ vấn đề này, một hướng nghiên cứu mới ra đời dựa trên hàng loạt các công trình gần đây, ngoại suy tri thức (Knowledge Extrapolation - KE) được hình thành. Trong notes này, chúng tôi dựa trên bài báo Generalizing to Unseen Elements: A Survey on Knowledge Extrapolation for Knowledge Graphs của Mingyang Chen để tổng hợp và trình bày bổ sung các phương pháp gần đây cho hướng nghiên cứu KE.

Nếu bạn đọc có quan tâm đến hướng nghiên cứu này, vui lòng đọc paper để có thêm thông tin chi tiết:

Chen, M., Zhang, W., Geng, Y., Xu, Z., Pan, J. Z., & Chen, H. (2023). Generalizing to Unseen Elements: A Survey on Knowledge Extrapolation for Knowledge Graphs. arXiv preprint arXiv:2302.01859.

Nhúng đồ thị tri thức (knowledge graph embedding)

Ta định nghĩa một cách hình thức đồ thị tri thức là $\mathcal{G} = \{\mathcal{E}, \mathcal{R}, \mathcal{T}\}$, trong đó:

Do cơ sở tri thức này có cấu trúc đồ thị, nên ta hoàn toàn có thể biểu diễn nó thông qua ma trận kề. Tuy nhiên, cách này rất tốn kém, và điều đó thật là không hiệu quả. Thay vì sử dụng phương pháp nhúng “ngây thơ” như vậy, người ta sử dụng phương pháp đơn giản mà hiệu quả hơn “nhúng tra nông”, “shallow lookup embedding" 1. Trong shallow embedding, bộ mã hóa được định nghĩa bằng một “bảng tra” sao cho tính tương đồng trong không gian này có thể xấp xỉ tính tương đồng trong không gian trước đó. Mỗi một cột của ma trận này thể hiệu bảng nhúng của nút, còn tổng số dòng của ma trận thể hiện số chiều nhúng/ kích thước nhúng. Hơn nữa, ta cũng cần phải phân biệt giữa “shallow embedding” và “deep embedding”. . Nói chung, mục tiêu chính của phương pháp nhúng đồ thị tri thức là biểu diễn các phần trong các tập hợp thực tể $\mathcal{E}$ và quan hệ $\mathcal{R}$ vào không gian vector liên tục thấp chiều trong khi vẫn bảo toàn cấu trúc nội tại của dữ liệu đồ thị.

Để đánh giá một phương pháp nhúng đồ thị tri thức có tốt hay không, người ta thường khảo sát tác tục dự đoán liên kết(có thể hiểu là dự đoán các bộ dữ kiện bị thiếu, điều này chưa đúng đắn về mặt bản chất nhưng ta vẫn có thể chấp nhận được) cho việc đánh giá mức độ hiệu quả của phương pháp KGE được đề xuất.


(a) Tập huấn luyện (training), và (b) Tập kiểm tra (test) cho KGE truyền thống. Ví dụ về tập kiểm tra cho thiết lập bài toán ngoại suy thực thể (c) và thiết lập bài toán ngoại suy quan hệ (d). Trong đó có thể có bất kỳ thông tin bổ trợ nào về những thực thể chưa biết trong tập hỗ trợ (support set), và sử những bộ ba dữ kiện liên quan như những ví dụ.

Các phương pháp được đề xuất cho thiết lập ngoại suy tri thức có mục tiêu thực hiện dự đoán liên kết trên những phần tử chưa biết (unseen elements). Một cách thống nhất, trong quá trình ngoại suy tri thúc, có hai tập được sử dụng cho đánh giá:

Về mặt phân loại, ta có thể chia các phương pháp tiếp cận hiện tại theo hai hướng: ngoại suy thực thể (Entity Extrapolation), và ngoại suy quan hệ (Relation Extrapolation). Hình bên dưới thể hiện tổng quan hệ thống phân loại các phương pháp tiếp cận.

Các phương pháp ngoại suy thực thể (Entity extrapolation methods)

Mã hóa thực thể (Entity encoding)

Một trong những cách để xử lý những thực thể chưa biết đó là học cách mã hóa những thực thể thay vì học các bảng nhúng “cố định”. Những bộ mã hóa học được này (learned encoders) có thể thực thi trên tập hợp hỗ trợ của các thực thể để tạo ra các bảng nhúng hợp lý (reasonable embeddings) cho chúng. Hiện nay, có nhiều cách để thiết kế các mô hình mã hóa này. Tùy thuộc vào tính chất của tập hỗ trợ mà ta có thể chọn lựa các phương pháp tiếp cận phù hợp.

Dự đoán đồ thị con (Subgraph predicting)

Dựa trên khai thác luật (Rule mining)

Các phương pháp ngoại suy quan hệ (Relation extrapolation methods)

Mã hóa quan hệ (Relation encoding)

Khớp cặp thực thể (Entity pair matching)

Các công trình tiêu biểu

Dữ liệu

Các bộ dữ liệu:

Bàn luận

Bàn luận 1: Những gia định về ngoại suy thực thể

Thường có hai giả định khác nhau về ngoại suy thực thể (entity extroplation).

Như vậy, ta hoàn toàn có thể thấy các mô hình được thiết kế để giải quyết cho vấn đề ngoại suy hoàn toàn thì có thể áp dụng để giải quyết cho trường hợp bán ngoại suy, nhưng chiều ngược lại thì không được.

Hầu hết các mô hình bán ngoại suy thực thể nằm trong nhóm các mô hình dựa trên mã hóa thực thể và mã hóa thực thể chưa biết từ thông tin cấu trúc bởi vì chúng thường thiết kế các module cho việc chuyển giao tri thức từ các thực thể đã biết. Một số mô hình thiết kế bộ mã hóa độc lập với thực thể khiến chúng có thể giải quyết vấn đề ngoại suy hoàn toàn.

Các phương pháp mã hóa các thực thể chưa biết từ các nguồn thông tin khác như thông tin văn bản mô tả cũng có thể giải quyết được bài toán ngoại suy hoàn toàn. Các phương pháp dựa trên dự đoán đồ thị con và học dựa trên luật có khả năng xử lý bài toán ngoại suy hoàn toàn bởi vì các đồ thị con và luật thì độc lập với thực thể.

Bàn luận 2: Khai thác thông tin trong tập support

Nhiều thể loại thông tin có thể được khai thác để xây dựng các tập support cho các thành phần chưa biết, bao gồm các bộ ba dữ kiện, mô tả ngữ cảnh, và bản thể học (ontologies). Chúng ta sẽ lần lượt xem xét từng thể loại một.

Đầu tiên, các bộ ba dữ kiện, mà cung cấp thông tin cấu trúc, một kiểu trực quan của thông tin hỗ trợ cho các thành phần chưa biết bởi chúng thường xuất hiện với những thành phần khác trong dạng thức của một bộ ba dữ kiện thay vì đứng một mình. Tri thức từ những thành phần đă biết được cung cấp bởi các bộ ba mà có thể sử dụng bởi các thành phần chưa biết.

Bên cạnh đó, thông tin mô tả ngữ cảnh cũng phổ biến cho KG bởi vì nhiều KG được xây dựng từ dữ liệu văn bản. Mô tả ngữ cảnh có thể cung cấp một cách tự nhiên khả năng ngoại suy đến cho những thành phần chưa biết, và thường được sử dụng trong các bộ mã hóa văn bản để biến đổi văn bản thành các embeddings.

Cuối cùng, bản thế học (ontologies) thường được sử dụng như tri thức tiên nghiệm (prior knowledge) về mối tương quan giữa các thành phần đã biết và chưa biết, và được sử dụng giải quyết các quan hệ chưa biết trong nhiều trong trình hiện nay. Một ontology thường được thể hiện như một đồ thị bao gồm các quan hệ phân cấp và ràng buộc trên các miền và khoảng quan hệ. Embedding của các quan hệ chưa biết có thể được phát sinh bằng cách sử dụng một phương pháp dựa trên ontology mà sử dụng nhiều kỹ thuật bao gồm GAN hay disentangled representation learning.

Các định hướng tương lai

Định hướng 1: Khai thác vào các ứng dụng

Hầu hết các phương pháp ngoại suy tri thức hiện nay được đánh giá dựa trên bài toán dự đoán liên kết trên các tập kiểm tra. Mặc dù tác vụ dự đoán liên kết có thể cho thấy tính hiệu quả của mô hình và giúp đồ thị tri thức hoàn thiện, nó cũng có giá trị để khám phát cách để phát sinh những thành phần chưa biết của KG trong nhiều ứng dụng như: answering logical queries expressed in a subset of first-order logic; entity alignment task under the growing KG; question answering; …

Định hướng 2: Thông tin hỗ trợ đa thể thức

Đồ thị tri thức đa thể thức (Multi-modal knowledge graphs) là một trong những chủ đề nghiên cứu được đề cập nhiều trong thời gian gần đây. Trong khi nhiều phương pháp ngoại suy tri thức tập trung vào việc sử dụng ngôn ngữ tự nhiên như trong tin hỗ trợ cho các thành phần chưa biết, thì có tương đối ít các công trình giải quyết vấn đề tiềm năng của việc sử dụng thông tin thị giác.

Định hướng 3: Ngoại suy thực thể và quan hệ

Các nghiên cứu hiện tại trên vấn đề ngoại suy tập trung chủ yếu vào việc giải quyết ngoại suy thực thể và quan suy quan hệ một cách hoàn toàn độc lập, nhưng trong nhiều ứng dụng thực tế, các thực thể và quan hệ chưa biết có thể xuất hiện một cách đồng thời. Một lời giải khả thi ở đây là các phương pháp tích hợp một cách hiệu quả cả ngoại suy thực thể và quan hệ.

Định hướng 4: Thiết lập động và lifelong

Trong nhiều ứng dụng thực tế, một số KG bao gồm các ràng buộc thời gian mà thỏa mãn một số xem xét về thông tin thời gian khi mà đánh giá điểm cho một bộ ba nào đó. Đồ thị tri thức động cũng đối mặt với thách thức về việc xuất hiện của các thành phần bởi vì bản chất động của nó. Để giải quyết vấn đề này, nhiều công trình định nghĩa một bài toán về ngoại suy thực thể trong đồ thị động và sử dụng các kỹ thuật để thu được các embedding cho các thực thể chưa biết.

Tài liệu tham khảo

[1] Chen, M., Zhang, W., Geng, Y., Xu, Z., Pan, J. Z., & Chen, H. (2023). Generalizing to Unseen Elements: A Survey on Knowledge Extrapolation for Knowledge Graphs. arXiv preprint arXiv:2302.01859.