Pages

Senin, 23 Juni 2014

Diagram visual berbasis category theory untuk analisa kalimat bahasa Indonesia

Salah satu masalah yang cukup sulit dalam natural language processing (NLP) adalah word sense disambiguation. Memilah arti (sense) yang dimaksud pembicara dari sebuah kata, berdasarkan konteks kalimat maupun pembicaraan.

Contoh: gajah (elephant-n) dapat berarti:

  1. binatang gajah (102506148-n) dalam konteks umum
  2. simbol partai Republik (106894712-n) dalam konteks politik
  3. buah gajah (102847294-n) dalam konteks permainan catur
Diagram visual berbasis category theory yang dikembangkan oleh Bob Coecke, dapat membantu menyelesaikan masalah ini:


Sederhananya, setiap kata/sense diberikan beberapa link yang dapat dihubungkan dengan sense lain yang memiliki link dengan kategori tertentu. Dalam contoh kasus di atas saya dapat mendeklarasikan (pseudo DSL):

menunggang
  -> Animal
102506148-n
  <- Animal

Dengan informasi tersebut, maka untuk verb menunggang, keterhubungannya untuk kata gajah-n adalah dengan sense 102506148-n (binatang gajah).

Metode ini juga tujuan awalnya digunakan untuk memvisualisasikan formula quantum theory.

Referensi: