Startup AI Mistral telah meluncurkan API baru untuk moderasi konten.
API tersebut, yang merupakan API yang sama yang mendukung moderasi di platform chatbot Le Chat Mistral, dapat disesuaikan dengan aplikasi spesifik dan standar keamanan, kata Mistral. Ini didukung oleh model yang telah disesuaikan (Ministral 8B) yang dilatih untuk mengklasifikasikan teks dalam berbagai bahasa, termasuk Inggris, Prancis, dan Jerman, ke dalam salah satu dari sembilan kategori: seksual, kebencian dan diskriminasi, kekerasan dan ancaman, konten berbahaya dan kriminal. , tindakan menyakiti diri sendiri, kesehatan, keuangan, hukum, dan informasi identitas pribadi.
API moderasi dapat diterapkan pada teks mentah atau percakapan, kata Mistral.
“Selama beberapa bulan terakhir, kami telah melihat meningkatnya antusiasme di seluruh industri dan komunitas riset terhadap sistem moderasi berbasis AI baru, yang dapat membantu membuat moderasi lebih terukur dan kuat di seluruh aplikasi,” tulis Mistral dalam postingan blognya. “Pengklasifikasi moderasi konten kami memanfaatkan kategori kebijakan yang paling relevan untuk pagar pembatas yang efektif dan memperkenalkan pendekatan pragmatis terhadap model keselamatan dengan mengatasi dampak buruk yang ditimbulkan oleh model seperti saran yang tidak memenuhi syarat dan PII.”
Sistem moderasi yang didukung AI berguna secara teori. Namun mereka juga rentan terhadap bias dan kelemahan teknis yang sama seperti yang dialami sistem AI lainnya.
Misalnya, beberapa model yang dilatih untuk mendeteksi toksisitas melihat frasa dalam Bahasa Inggris Vernacular Afrika Amerika (AAVE), tata bahasa informal yang digunakan oleh sebagian orang kulit hitam Amerika, sebagai “beracun” yang tidak proporsional. Berdasarkan penelitian, postingan di media sosial tentang penyandang disabilitas juga sering ditandai sebagai postingan yang lebih negatif atau beracun berdasarkan sentimen publik dan model deteksi toksisitas yang umum digunakan.
Mistral mengklaim bahwa model moderasinya sangat akurat – tetapi juga mengakui bahwa model ini masih dalam proses. Khususnya, perusahaan tidak membandingkan kinerja API-nya dengan API moderasi populer lainnya, seperti API Perspektif Jigsaw dan API moderasi OpenAI.
“Kami bekerja sama dengan pelanggan kami untuk membangun dan berbagi alat moderasi yang terukur, ringan, dan dapat disesuaikan,” kata perusahaan tersebut, “dan akan terus terlibat dengan komunitas riset untuk berkontribusi dalam kemajuan keselamatan di bidang yang lebih luas.”
Mistral juga mengumumkan API batch hari ini. Perusahaan mengatakan mereka dapat mengurangi biaya model yang disajikan melalui API-nya sebesar 25% dengan memproses permintaan volume tinggi secara asinkron. Anthropic, OpenAI, Google, dan lainnya juga menawarkan opsi batching untuk AI API mereka.