Apakah Ini Algoritma Konten Google yang Bermanfaat? Makalah penelitian Google menjelaskan algoritme yang dapat mengidentifikasi halaman web berkualitas rendah, mirip dengan apa yang dilakukan sinyal konten bermanfaat
Google menerbitkan makalah penelitian inovatif tentang mengidentifikasi kualitas halaman dengan AI. Detail algoritme tampak sangat mirip dengan apa yang diketahui dilakukan oleh algoritme konten bermanfaat.
Google Tidak Mengidentifikasi Teknologi Algoritma
Tidak seorang pun di luar Google dapat mengatakan dengan pasti bahwa makalah penelitian ini adalah dasar dari sinyal konten yang bermanfaat.
Google umumnya tidak mengidentifikasi teknologi yang mendasari berbagai algoritmenya seperti algoritme Penguin, Panda, atau SpamBrain.
Jadi seseorang tidak dapat mengatakan dengan pasti bahwa algoritme ini adalah algoritme konten yang bermanfaat, seseorang hanya dapat berspekulasi dan menawarkan pendapat tentangnya.
Tapi itu layak untuk dilihat karena kesamaannya membuka mata.
Sinyal Konten yang Bermanfaat
1. Ini Meningkatkan Pengklasifikasi
Google telah memberikan sejumlah petunjuk tentang sinyal konten yang bermanfaat tetapi masih banyak spekulasi tentang apa itu sebenarnya.
Petunjuk pertama ada di tweet 6 Desember 2022 yang mengumumkan pembaruan konten bermanfaat pertama.
Tweet itu berkata :
“Ini meningkatkan pengklasifikasi kami & berfungsi di seluruh konten secara global dalam semua bahasa.”
Pengklasifikasi, dalam pembelajaran mesin, adalah sesuatu yang mengkategorikan data (apakah ini atau itu?).
2. Ini Bukan Tindakan Manual atau Spam
Algoritme Konten Bermanfaat, menurut penjelasan Google ( Apa yang harus diketahui pembuat konten tentang pembaruan konten bermanfaat Google Agustus 2022 ), bukanlah tindakan spam atau tindakan manual.
“Proses pengklasifikasi ini sepenuhnya otomatis, menggunakan model pembelajaran mesin.
Ini bukan tindakan manual atau tindakan spam.”
3. Ini adalah Sinyal Terkait Peringkat
Penjelasan pembaruan konten yang bermanfaat mengatakan bahwa algoritme konten yang bermanfaat adalah sinyal yang digunakan untuk menentukan peringkat konten.
“… itu hanya sinyal baru dan salah satu dari banyak sinyal yang dievaluasi Google untuk menentukan peringkat konten.”
4. Memeriksa apakah Konten Oleh Orang
Hal yang menarik adalah sinyal konten yang bermanfaat (tampaknya) memeriksa apakah konten tersebut dibuat oleh orang-orang.
Posting blog Google di Pembaruan Konten Bermanfaat ( Lebih banyak konten oleh orang, untuk orang di Penelusuran ) menyatakan bahwa itu adalah sinyal untuk mengidentifikasi konten yang dibuat oleh orang dan untuk orang.
Danny Sullivan dari Google menulis:
“…kami meluncurkan serangkaian penyempurnaan pada Penelusuran untuk memudahkan orang menemukan konten bermanfaat yang dibuat oleh, dan untuk, orang.
…Kami berharap dapat mengembangkan pekerjaan ini untuk semakin memudahkan menemukan konten asli oleh dan untuk orang-orang nyata di bulan-bulan mendatang.”
Konsep konten yang “oleh orang-orang” diulangi tiga kali dalam pengumuman tersebut, tampaknya menunjukkan bahwa itu adalah kualitas dari sinyal konten yang bermanfaat.
Dan jika tidak ditulis “oleh orang”, maka itu dihasilkan oleh mesin, yang merupakan pertimbangan penting karena algoritme yang dibahas di sini terkait dengan pendeteksian konten yang dihasilkan mesin.
5. Apakah Konten yang Bermanfaat Menandakan Banyak Hal?
Terakhir, pengumuman blog Google tampaknya menunjukkan bahwa Pembaruan Konten Bermanfaat bukan hanya satu hal, seperti algoritme tunggal.
Danny Sullivan menulis bahwa ini adalah “ serangkaian perbaikan ” yang, jika saya tidak membaca terlalu banyak, berarti ini bukan hanya satu algoritme atau sistem, tetapi beberapa yang bersama-sama menyelesaikan tugas membuang konten yang tidak membantu.
Inilah yang dia tulis:
“…kami meluncurkan serangkaian peningkatan pada Penelusuran untuk memudahkan orang menemukan konten bermanfaat yang dibuat oleh, dan untuk, orang-orang.”
baca juga
- Raja SEO Layanan SEO di Jakarta Dengan Online Reputation Management
- 5 Tantangan SEO Lokal Perusahaan
- Bisnis Jasa Penitipan Anak Untuk Ibu Yang Super Aktif
- 5 Cara Ampuh Mengembangkan Blog dan Meningkatkan Kualitas Konten Anda
- Bagaimana Menciptakan Iklan di IG Story yang Efektif? Ini Kata Facebook
Model Pembuatan Teks Dapat Memprediksi Kualitas Halaman
Apa yang ditemukan makalah penelitian ini adalah bahwa model bahasa besar (LLM) seperti GPT-2 dapat secara akurat mengidentifikasi konten berkualitas rendah.
Mereka menggunakan pengklasifikasi yang dilatih untuk mengidentifikasi teks yang dihasilkan mesin dan menemukan bahwa pengklasifikasi yang sama mampu mengidentifikasi teks berkualitas rendah, meskipun mereka tidak dilatih untuk melakukannya.
Model bahasa besar dapat belajar bagaimana melakukan hal-hal baru yang tidak pernah mereka latih.
Sebuah artikel Universitas Stanford tentang GPT-3 membahas bagaimana ia secara mandiri mempelajari kemampuan menerjemahkan teks dari bahasa Inggris ke bahasa Prancis, hanya karena diberi lebih banyak data untuk dipelajari, sesuatu yang tidak terjadi dengan GPT-2, yang dilatih lebih sedikit. data.
Artikel tersebut mencatat bagaimana menambahkan lebih banyak data menyebabkan munculnya perilaku baru, hasil dari apa yang disebut pelatihan tanpa pengawasan.
Algoritma Konten Google yang Bermanfaat
Pelatihan tanpa pengawasan adalah saat mesin mempelajari cara melakukan sesuatu yang tidak dilatih untuk dilakukannya.
Kata ” muncul ” itu penting karena merujuk pada saat mesin belajar melakukan sesuatu yang tidak dilatih untuk dilakukannya.
Artikel Universitas Stanford tentang GPT-3 menjelaskan:
“Peserta lokakarya mengatakan bahwa mereka terkejut bahwa perilaku seperti itu muncul dari penskalaan sederhana data dan sumber daya komputasi dan mengungkapkan keingintahuan tentang kemampuan lebih lanjut apa yang akan muncul dari penskalaan lebih lanjut.”
Kemampuan baru yang muncul persis seperti yang dijelaskan oleh makalah penelitian. Mereka menemukan bahwa pendeteksi teks buatan mesin juga dapat memprediksi konten berkualitas rendah.
Para peneliti menulis:
“Pekerjaan kami ada dua: pertama kami menunjukkan melalui evaluasi manusia bahwa pengklasifikasi yang dilatih untuk membedakan antara teks buatan manusia dan mesin muncul sebagai prediktor ‘kualitas halaman’ yang tidak diawasi, yang mampu mendeteksi konten berkualitas rendah tanpa pelatihan apa pun.
Hal ini memungkinkan bootstrapping indikator kualitas yang cepat dalam pengaturan sumber daya yang rendah.
Kedua, penasaran untuk memahami prevalensi dan sifat halaman berkualitas rendah di alam liar, kami melakukan analisis kualitatif dan kuantitatif yang ekstensif terhadap 500 juta artikel web, menjadikan ini studi berskala terbesar yang pernah dilakukan pada topik tersebut.”
Kesimpulannya di sini adalah mereka menggunakan model pembuatan teks yang dilatih untuk menemukan konten buatan mesin dan menemukan bahwa perilaku baru muncul, kemampuan untuk mengidentifikasi halaman berkualitas rendah.
Detektor OpenAI GPT-2
Para peneliti menguji dua sistem untuk melihat seberapa baik mereka bekerja untuk mendeteksi konten berkualitas rendah.
Salah satu sistem yang digunakan adalah RoBERTa , yaitu metode pretraining yang merupakan versi perbaikan dari BERT.
Ini adalah dua sistem yang diuji:
- Detektor GPT-2 berbasis Roberta OpenAI
- GLTR ( Deteksi Statistik dan Visualisasi Teks yang Dihasilkan ) Mencari
“tanda tangan statistik” dari konten yang dihasilkan mesin. Menggunakan BERT dan GPT-2.
Mereka menemukan bahwa detektor GPT-2 OpenAI lebih unggul dalam mendeteksi konten berkualitas rendah.
Deskripsi hasil pengujian sangat mencerminkan apa yang kami ketahui tentang sinyal konten yang bermanfaat.
AI Mendeteksi Segala Bentuk Spam Bahasa
Makalah penelitian menyatakan bahwa ada banyak sinyal kualitas tetapi pendekatan ini hanya berfokus pada linguistik atau kualitas bahasa.
Untuk keperluan makalah penelitian algoritma ini, frasa “kualitas halaman” dan “kualitas bahasa” memiliki arti yang sama.
Terobosan dalam penelitian ini adalah mereka berhasil menggunakan prediksi detektor OpenAI GPT-2 tentang apakah sesuatu dihasilkan oleh mesin atau bukan sebagai skor kualitas bahasa.
Mereka menulis:
“…dokumen dengan nilai P(machine-written) yang tinggi cenderung memiliki kualitas bahasa yang rendah.
…Deteksi kepenulisan mesin dengan demikian dapat menjadi proksi yang kuat untuk penilaian kualitas.
Tidak memerlukan contoh berlabel – hanya kumpulan teks untuk dilatih dengan cara yang mendiskriminasi diri sendiri.
Ini sangat berharga dalam aplikasi di mana data berlabel langka atau di mana distribusinya terlalu rumit untuk disampel dengan baik.
Misalnya, sulit untuk menyusun kumpulan data berlabel yang mewakili semua bentuk konten web berkualitas rendah.”
Artinya, sistem ini tidak perlu dilatih untuk mendeteksi jenis konten berkualitas rendah tertentu.
Ia belajar menemukan semua variasi kualitas rendah dengan sendirinya.
Ini adalah pendekatan yang ampuh untuk mengidentifikasi halaman yang tidak berkualitas tinggi.
Hasil Mencerminkan Pembaruan Konten Bermanfaat
Mereka menguji sistem ini pada setengah miliar halaman web, menganalisis halaman menggunakan berbagai atribut seperti panjang dokumen, usia konten, dan topik.
Usia konten bukan tentang menandai konten baru sebagai kualitas rendah.
Mereka hanya menganalisis konten web berdasarkan waktu dan menemukan bahwa ada lompatan besar pada halaman berkualitas rendah mulai tahun 2019, bertepatan dengan semakin populernya penggunaan konten buatan mesin.
Analisis berdasarkan topik mengungkapkan bahwa area topik tertentu cenderung memiliki halaman berkualitas lebih tinggi, seperti topik hukum dan pemerintahan.
Menariknya, mereka menemukan sejumlah besar halaman berkualitas rendah di ruang pendidikan, yang menurut mereka berhubungan dengan situs yang menawarkan esai kepada siswa.
Menariknya, pendidikan adalah topik yang secara khusus disebutkan oleh Google untuk terpengaruh oleh pembaruan Konten Bermanfaat.
Posting blog Google yang ditulis oleh Danny Sullivan membagikan:
“…pengujian kami telah menemukan bahwa hal itu terutama akan meningkatkan hasil yang berkaitan dengan pendidikan online…”
Angka Mutu Tiga Bahasa
Pedoman Penilai Kualitas Google ( PDF ) menggunakan empat skor kualitas, rendah, sedang, tinggi, dan sangat tinggi.
Para peneliti menggunakan tiga skor kualitas untuk pengujian sistem baru, ditambah satu lagi yang tidak ditentukan.
Dokumen yang dinilai tidak terdefinisi adalah dokumen yang tidak dapat dinilai, karena alasan apa pun, dan telah dihapus.
Skor dinilai 0, 1, dan 2, dengan dua menjadi skor tertinggi.
Berikut adalah deskripsi dari Skor Kualitas Bahasa (LQ):
“0: LQ rendah.Teks tidak dapat dipahami atau tidak konsisten secara logis.
1: LQ sedang.Teks dapat dipahami tetapi ditulis dengan buruk (sering kesalahan tata bahasa / sintaksis).
2: LQ tinggi.Teks dapat dipahami dan ditulis dengan cukup baik (jarang kesalahan tata bahasa / sintaksis).
Berikut adalah definisi Pedoman Penilai Kualitas tentang kualitas rendah:
Kualitas Terendah:
“MC dibuat tanpa upaya, orisinalitas, bakat, atau keterampilan yang memadai yang diperlukan untuk mencapai tujuan halaman dengan cara yang memuaskan.
…sedikit perhatian pada aspek-aspek penting seperti kejelasan atau pengaturan.
…Beberapa konten berkualitas rendah dibuat dengan sedikit usaha untuk memiliki konten yang mendukungmonetisasi daripada membuat konten asli atau menarik untuk membantu pengguna.
Konten pengisi” juga dapat ditambahkan, terutama di bagian atas halaman, memaksa pengguna untuk menggulir ke bawah untuk mencapai MC.
…Penulisan artikel ini tidak profesional, termasuk banyak kesalahan tata bahasa dan tanda baca.”
Pedoman penilai kualitas memiliki deskripsi yang lebih rinci tentang kualitas rendah daripada algoritme.
Yang menarik adalah bagaimana algoritme bergantung pada kesalahan tata bahasa dan sintaksis.
Sintaks adalah referensi ke urutan kata-kata.
Kata-kata dengan urutan yang salah terdengar salah, mirip dengan cara karakter Yoda di Star Wars berbicara (“Tidak mungkin melihat masa depan”).
Apakah algoritme Konten Bermanfaat mengandalkan sinyal tata bahasa dan sintaksis? Jika ini adalah algoritme maka mungkin itu mungkin berperan (tetapi bukan satu-satunya peran).
Namun menurut saya algoritme telah ditingkatkan dengan beberapa hal yang ada dalam pedoman penilai kualitas antara publikasi penelitian pada tahun 2021 dan peluncuran sinyal konten yang bermanfaat pada tahun 2022.
Algoritma itu “Kuat”
Merupakan praktik yang baik untuk membaca apa kesimpulannya untuk mendapatkan ide jika algoritme cukup baik untuk digunakan dalam hasil pencarian.
Banyak makalah penelitian diakhiri dengan mengatakan bahwa lebih banyak penelitian harus dilakukan atau menyimpulkan bahwa perbaikannya kecil.
Makalah yang paling menarik adalah yang mengklaim hasil mutakhir.
Para peneliti berkomentar bahwa algoritme ini sangat kuat dan mengungguli baseline.
Apa yang menjadikannya kandidat yang baik untuk sinyal tipe konten yang bermanfaat adalah bahwa ini adalah algoritme sumber daya rendah yang berskala web.
Sebagai kesimpulan, mereka menegaskan kembali hasil positif:
“Makalah ini berpendapat bahwa pendeteksi yang dilatih untuk membedakan manusia vs. teks yang ditulis mesin adalah prediktor yang efektif untuk kualitas bahasa halaman web, mengungguli pengelompokan spam yang diawasi pada awal.”
Kesimpulan dari makalah penelitian positif tentang terobosan tersebut dan mengungkapkan harapan bahwa penelitian tersebut akan digunakan oleh orang lain.
Tidak disebutkan penelitian lebih lanjut yang diperlukan.
Makalah penelitian ini menjelaskan terobosan dalam mendeteksi halaman web berkualitas rendah.
Kesimpulannya menunjukkan bahwa, menurut saya, ada kemungkinan itu bisa masuk ke dalam algoritme Google.
Karena dideskripsikan sebagai algoritme “skala web” yang dapat digunakan dalam “pengaturan sumber daya rendah”, ini berarti algoritme ini adalah jenis algoritme yang dapat ditayangkan dan dijalankan secara berkelanjutan, seperti yang dikatakan sinyal konten yang membantu melakukan.
Kami tidak tahu apakah ini terkait dengan pembaruan konten yang bermanfaat, tetapi ini jelas merupakan terobosan dalam ilmu pendeteksian konten berkualitas rendah.