sastrawi / tokenizer
PHP library that allows you to tokenize Bahasa Indonesia.
Installs: 946
Dependents: 1
Suggesters: 0
Security: 0
Stars: 28
Watchers: 3
Forks: 14
Open Issues: 2
Requires
- php: >=5.3
- sastrawi/string-span: ~1
- sastrawi/trka: 0.*
- symfony/console: ~2.1
Requires (Dev)
Suggests
- sastrawi/sastrawi: For stemming Bahasa Indonesia
- sastrawi/sentence-detector: For splitting sentence in Bahasa Indonesia
This package is not auto-updated.
Last update: 2020-11-09 07:13:57 UTC
README
Sastrawi Tokenizer adalah library PHP untuk melakukan tokenization pada Bahasa Indonesia.
Tokenization
Saya sedang belajar NLP Bahasa Indonesia.
Text di atas dapat di-tokenize menjadi:
["Saya", "sedang", "belajar", "NLP", "Bahasa", "Indonesia", "."]
Sastrawi Tokenizer
- Library PHP untuk melakukan tokenization pada Bahasa Indonesia.
- Mudah diintegrasikan dengan framework / package lainnya.
- Mempunyai API yang sederhana dan mudah digunakan.
Demo
http://sastrawi.github.io/tokenizer.html
Cara Install
Sastrawi Tokenizer dapat diinstall dengan Composer.
- Buka terminal (command line) dan arahkan ke directory project Anda.
- Download Composer sehingga file
composer.phar
berada di directory tersebut. - Tambahkan Sastrawi Sentence Detector ke file
composer.json
Anda :
php composer.phar require sastrawi/tokenizer:0.*
Jika Anda masih belum memahami bagaimana cara menggunakan Composer, silahkan baca Getting Started with Composer.
Penggunaan
Melalui kode PHP
Copy kode berikut di directory project anda. Lalu jalankan file tersebut.
<?php // demo.php // include composer autoloader require_once __DIR__ . '/vendor/autoload.php'; $tokenizerFactory = new \Sastrawi\Tokenizer\TokenizerFactory(); $tokenizer = $tokenizerFactory->createDefaultTokenizer(); $tokens = $tokenizer->tokenize('Saya membeli barang seharga Rp 5.000 di Jl. Prof. Soepomo no. 67.'); var_dump($tokens);
Melalui CLI (Command Line Interface)
Sastrawi-tokenize CLI membaca teks dari STDIN dan menulis token-tokennya ke STDOUT.
$ echo Saya sedang belajar NLP Bahasa Indonesia. | php vendor/bin/sastrawi-tokenize
Untuk menampilkan bantuan:
$ php vendor/bin/sastrawi-tokenize --help
Lisensi
Sastrawi Tokenizer dirilis di bawah lisensi MIT License (MIT). Library ini memuat daftar singkatan Bahasa Indonesia dengan lisensi Creative Common BY SA yang bersumber dari http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia.