IKLAN HEADER

 Panduan Data Terstruktur Artikel Google Updates

susirahayu99.blogspot.com||Panduan Data Terstruktur Artikel Google Updates~ Google memperbarui dokumentasi untuk data terstruktur Article yang mendukung jenis Article, NewsArticle, dan Blog Posting Schema.


  JUKNIS BOSP TAHUN 2023  

Panduan yang diperbarui memengaruhi properti judul agar sesuai dengan panduan tentang elemen judul dan tautan judul.


Data Terstruktur Artikel

Data terstruktur artikel mungkin merupakan salah satu jenis data terstruktur yang paling populer digunakan karena begitu banyak konten dalam bentuk berbagai jenis artikel.


Data terstruktur Artikel dan variannya (NewsArticle dan BlogPosting) memungkinkan penerbit menyusun berbagai informasi halaman web.


Ada banyak properti data terstruktur yang terkait dengan skema Jenis Artikel. Pedoman Google umumnya memberikan panduan tentang jenis data terstruktur yang wajib atau opsional agar memenuhi syarat untuk penyempurnaan dalam hasil penelusuran.


Setiap perubahan panduan biasanya diikuti dengan perubahan pada plugin data terstruktur.Google Melonggarkan Panduan tentang Properti Data Terstruktur Judul

Perubahan pedoman memengaruhi properti judul, yang dicantumkan Google sebagai yang 


Judul dalam sebuah artikel adalah judul, yang umumnya direproduksi dalam elemen judul di area meta data.


Google sebelumnya memiliki batasan berapa banyak karakter dalam judul.


Ini adalah rekomendasi asli: (tautan ke Archive.org)


“Judul artikelnya. Nilainya tidak boleh melebihi 110 karakter.”


Panduan baru Google tentang properti judul tidak lagi membatasi panjang judul artikel:

“Judul artikelnya. Pertimbangkan untuk menggunakan judul yang ringkas, karena judul yang panjang dapat terpotong di beberapa perangkat.”


Panduan baru pada judul membuatnya sesuai dengan praktik terbaik Google untuk elemen judul (sering disebut sebagai tag judul) dalam panduan untuk tautan judul.

Panduan tautan judul menyarankan:


“Tulis teks deskriptif dan ringkas untuk elemen <title> Anda.”


Pengumuman Google menjelaskan perubahan tersebut:


“3 Januari: Menghapus batas 110 karakter untuk properti judul dalam dokumentasi data terstruktur Article.


Tidak ada batasan karakter keras; sebagai gantinya, kami menyarankan Anda untuk menulis judul yang ringkas karena judul yang panjang dapat terpotong di beberapa perangkat.”


Itu selalu merupakan praktik yang baik untuk menjadi ringkas, yang berarti mengkomunikasikan informasi paling banyak dengan jumlah kata yang paling sedikit.


Namun, Anda juga boleh menggunakan kata-kata sebanyak yang diperlukan di judul sambil tetap memperhatikan bagaimana judul dapat ditampilkan di hasil penelusuran Google.

Apakah Ini Algoritma Konten Google yang Bermanfaat?

Makalah penelitian Google menjelaskan algoritme yang dapat mengidentifikasi halaman web berkualitas rendah, mirip dengan apa yang dilakukan sinyal konten bermanfaat


Makalah penelitian Google menjelaskan algoritme yang mendeteksi halaman berkualitas rendah, konten spam, dan konten buatan mesin

Algoritma menampilkan penggunaan sumber daya yang rendah dan kemampuan untuk menangani analisis skala web

Algoritma tidak harus dilatih untuk menemukan jenis konten berkualitas rendah tertentu, ia dapat belajar sendiri

Google menerbitkan makalah penelitian inovatif tentang mengidentifikasi kualitas halaman dengan AI. Detail algoritme tampak sangat mirip dengan apa yang diketahui dilakukan oleh algoritme konten bermanfaat.


Google Tidak Mengidentifikasi Teknologi Algoritma

Tidak seorang pun di luar Google dapat mengatakan dengan pasti bahwa makalah penelitian ini adalah dasar dari sinyal konten yang bermanfaat.


Google umumnya tidak mengidentifikasi teknologi yang mendasari berbagai algoritmenya seperti algoritme Penguin, Panda, atau SpamBrain.

Jadi seseorang tidak dapat mengatakan dengan pasti bahwa algoritme ini adalah algoritme konten yang bermanfaat, seseorang hanya dapat berspekulasi dan menawarkan pendapat tentangnya.


Tapi itu layak untuk dilihat karena kesamaannya membuka mata.


Sinyal Konten yang Bermanfaat

1. Ini Meningkatkan Pengklasifikasi

Google telah memberikan sejumlah petunjuk tentang sinyal konten yang bermanfaat tetapi masih banyak spekulasi tentang apa itu sebenarnya.


Petunjuk pertama ada di tweet 6 Desember 2022 yang mengumumkan pembaruan konten bermanfaat pertama.


Tweet itu berkata:


“Ini meningkatkan pengklasifikasi kami & berfungsi di seluruh konten secara global dalam semua bahasa.”


Pengklasifikasi, dalam pembelajaran mesin, adalah sesuatu yang mengkategorikan data (apakah ini atau itu?).


2. Ini Bukan Tindakan Manual atau Spam

Algoritme Konten Bermanfaat, menurut penjelasan Google (Apa yang harus diketahui pembuat konten tentang pembaruan konten bermanfaat Google Agustus 2022), bukanlah tindakan spam atau tindakan manual.

Proses pengklasifikasian ini sepenuhnya otomatis, menggunakan model pembelajaran mesin.


Ini bukan tindakan manual atau tindakan spam.”


3. Ini adalah Sinyal Terkait Peringkat

Penjelasan pembaruan konten yang bermanfaat mengatakan bahwa algoritme konten yang bermanfaat adalah sinyal yang digunakan untuk menentukan peringkat konten.


“… itu hanya sinyal baru dan salah satu dari banyak sinyal yang dievaluasi Google untuk menentukan peringkat konten.”


4. Memeriksa apakah Konten Oleh Orang

Hal yang menarik adalah sinyal konten yang bermanfaat (tampaknya) memeriksa apakah konten tersebut dibuat oleh orang-orang.


Posting blog Google di Pembaruan Konten Bermanfaat (Lebih banyak konten oleh orang, untuk orang di Penelusuran) menyatakan bahwa itu adalah sinyal untuk mengidentifikasi konten yang dibuat oleh orang dan untuk orang.


Danny Sullivan dari Google menulis:


“…kami meluncurkan serangkaian penyempurnaan pada Penelusuran untuk memudahkan orang menemukan konten bermanfaat yang dibuat oleh, dan untuk, orang.


…Kami berharap dapat mengembangkan pekerjaan ini untuk semakin memudahkan menemukan konten asli oleh dan untuk orang-orang nyata di bulan-bulan mendatang.”

Konsep konten yang "oleh orang-orang" diulangi tiga kali dalam pengumuman, tampaknya menunjukkan bahwa kualitas sinyal konten yang bermanfaat.


Dan jika tidak ditulis "oleh orang", maka itu dihasilkan oleh mesin, yang merupakan pertimbangan penting karena algoritme yang dibahas di sini terkait dengan pendeteksian konten yang dihasilkan mesin.


5. Apakah Konten yang Bermanfaat Menandakan Banyak Hal?

Terakhir, pengumuman blog Google tampaknya menunjukkan bahwa Pembaruan Konten Bermanfaat bukan hanya satu hal, seperti algoritme tunggal.

Danny Sullivan menulis bahwa ini adalah "serangkaian peningkatan" yang, jika saya tidak terlalu banyak membaca, berarti bahwa ini bukan hanya satu algoritme atau sistem tetapi beberapa yang bersama-sama menyelesaikan tugas untuk membuat konten yang tidak membantu.


Kemampuan baru yang muncul persis seperti yang dijelaskan oleh makalah penelitian. Mereka menemukan bahwa pendeteksi teks buatan mesin juga dapat memprediksi konten berkualitas rendah.


Para peneliti menulis:


“Pekerjaan kami ada dua: pertama kami menunjukkan melalui evaluasi manusia bahwa pengklasifikasi yang dilatih untuk membedakan antara teks buatan manusia dan mesin muncul sebagai prediktor 'kualitas halaman' tanpa pengawasan, yang mampu mendeteksi konten berkualitas rendah tanpa pelatihan apa pun.


Hal ini memungkinkan bootstrapping indikator kualitas yang cepat dalam pengaturan sumber daya yang rendah.


Kedua, penasaran untuk memahami prevalensi dan sifat halaman berkualitas rendah di alam liar, kami melakukan analisis kualitatif dan kuantitatif yang ekstensif terhadap 500 juta artikel web, menjadikan ini studi berskala terbesar yang pernah dilakukan pada topik tersebut.”


Kesimpulannya di sini adalah mereka menggunakan model pembuatan teks yang dilatih untuk menemukan konten buatan mesin dan menemukan bahwa perilaku baru muncul, kemampuan untuk mengidentifikasi halaman berkualitas rendah.


Detektor OpenAI GPT-2

Para peneliti menguji dua sistem untuk melihat seberapa baik mereka bekerja untuk mendeteksi konten berkualitas rendah.


Salah satu sistem yang digunakan adalah RoBERTa, yaitu metode pretraining yang merupakan versi perbaikan dari BERT.


Ini adalah dua sistem yang diuji:


Detektor GPT-2 berbasis Roberta OpenAI

GLTR (Deteksi Statistik dan Visualisasi Teks yang Dihasilkan)

Mencari “tanda tangan statistik” dari konten buatan mesin. Menggunakan BERT dan GPT-2.



Mereka menemukan bahwa detektor GPT-2 OpenAI lebih unggul dalam mendeteksi konten berkualitas rendah.


Deskripsi hasil pengujian sangat mencerminkan apa yang kami ketahui tentang sinyal konten yang bermanfaat.


AI Mendeteksi Segala Bentuk Spam Bahasa

Makalah penelitian menyatakan bahwa ada banyak sinyal kualitas tetapi pendekatan ini hanya berfokus pada linguistik atau kualitas bahasa.


Untuk keperluan makalah penelitian algoritma ini, frasa "kualitas halaman" dan "kualitas bahasa" memiliki arti yang sama.


Terobosan dalam penelitian ini adalah mereka berhasil menggunakan prediksi detektor OpenAI GPT-2 tentang apakah sesuatu dihasilkan oleh mesin atau bukan sebagai skor kualitas bahasa.


Mereka menulis:


“…dokumen dengan nilai P(machine-written) yang tinggi cenderung memiliki kualitas bahasa yang rendah.


…Deteksi kepenulisan mesin dengan demikian dapat menjadi proksi yang kuat untuk penilaian kualitas.


Tidak memerlukan contoh berlabel – hanya kumpulan teks untuk dilatih dengan cara yang mendiskriminasi diri sendiri.


Ini sangat berharga dalam aplikasi di mana data berlabel langka atau di mana distribusinya terlalu rumit untuk disampel dengan baik.


Misalnya, sulit untuk menyusun kumpulan data berlabel yang mewakili semua bentuk konten web berkualitas rendah.”


Artinya, sistem ini tidak perlu dilatih untuk mendeteksi jenis konten berkualitas rendah tertentu.


Ia belajar menemukan semua variasi kualitas rendah dengan sendirinya.


Ini adalah pendekatan yang ampuh untuk mengidentifikasi halaman yang tidak berkualitas tinggi.


Hasil Mencerminkan Pembaruan Konten Bermanfaat

Mereka menguji sistem ini pada setengah miliar halaman web, menganalisis halaman menggunakan berbagai atribut seperti panjang dokumen, usia konten, dan topik.


Usia konten bukan tentang menandai konten baru sebagai kualitas rendah.


Mereka hanya menganalisis konten web berdasarkan waktu dan menemukan bahwa ada lompatan besar pada halaman berkualitas rendah mulai tahun 2019, bertepatan dengan semakin populernya penggunaan konten buatan mesin.


Analisis berdasarkan topik mengungkapkan bahwa area topik tertentu cenderung memiliki halaman berkualitas lebih tinggi, seperti topik hukum dan pemerintahan.


Menariknya, mereka menemukan sejumlah besar halaman berkualitas rendah di ruang pendidikan, yang menurut mereka berhubungan dengan situs yang menawarkan esai kepada siswa.


Menariknya, pendidikan adalah topik yang secara khusus disebutkan oleh Google untuk dipengaruhi oleh pembaruan Konten Bermanfaat.

Posting blog Google yang ditulis oleh Danny Sullivan membagikan:


“…pengujian kami telah menemukan bahwa hal itu terutama akan meningkatkan hasil yang berkaitan dengan pendidikan online…”


Angka Mutu Tiga Bahasa

Pedoman Penilai Kualitas Google (PDF) menggunakan empat skor kualitas, rendah, sedang, tinggi, dan sangat tinggi.


Para peneliti menggunakan tiga skor kualitas untuk pengujian sistem baru, ditambah satu lagi yang tidak ditentukan.


Dokumen yang dinilai tidak terdefinisi adalah dokumen yang tidak dapat dinilai, karena alasan apa pun, dan telah dihapus.


Skor dinilai 0, 1, dan 2, dengan dua menjadi skor tertinggi.


Berikut adalah deskripsi dari Skor Kualitas Bahasa (LQ):


“0: LQ rendah.

Teks tidak dapat dipahami atau tidak konsisten secara logis.


1: LQ sedang.

Teks dapat dipahami tetapi ditulis dengan buruk (sering kesalahan tata bahasa / sintaksis).


2: LQ tinggi.

Teks dapat dipahami dan ditulis dengan cukup baik (jarang kesalahan tata bahasa / sintaksis).


Berikut adalah definisi Pedoman Penilai Kualitas tentang kualitas rendah:


Kualitas Terendah:

“MC dibuat tanpa upaya, orisinalitas, bakat, atau keterampilan yang memadai yang diperlukan untuk mencapai tujuan halaman dengan cara yang memuaskan.


…sedikit perhatian pada aspek-aspek penting seperti kejelasan atau pengaturan.


…Beberapa konten berkualitas rendah dibuat dengan sedikit usaha untuk mendapatkan konten yang didukung

monetisasi daripada membuat konten asli atau menarik untuk membantu pengguna.


Konten pengisi” juga dapat ditambahkan, terutama di bagian atas halaman, memaksa pengguna untuk menggulir ke bawah untuk mencapai MC.


…Penulisan artikel ini tidak profesional, termasuk banyak kesalahan tata bahasa dan tanda baca.”


Pedoman penilai kualitas memiliki deskripsi yang lebih rinci tentang kualitas rendah daripada algoritme.


Yang menarik adalah bagaimana algoritme bergantung pada kesalahan tata bahasa dan sintaksis.


Sintaks adalah referensi ke urutan kata-kata.


Kata-kata dengan urutan yang salah terdengar salah, mirip dengan cara karakter Yoda di Star Wars berbicara ("Tidak mungkin melihat masa depan").


Apakah algoritme Konten Bermanfaat mengandalkan sinyal tata bahasa dan sintaksis? Jika ini adalah algoritme maka mungkin itu mungkin berperan (tetapi bukan satu-satunya peran).


Tetapi saya ingin berpikir bahwa algoritme telah ditingkatkan dengan beberapa hal yang ada dalam pedoman penilai kualitas antara publikasi penelitian pada tahun 2021 dan peluncuran sinyal konten yang bermanfaat pada tahun 2022.


Algoritma itu "Kuat"

Merupakan praktik yang baik untuk membaca apa kesimpulannya untuk mendapatkan ide jika algoritme cukup baik untuk digunakan dalam hasil pencarian.


Banyak makalah penelitian diakhiri dengan mengatakan bahwa lebih banyak penelitian harus dilakukan atau menyimpulkan bahwa perbaikannya kecil.


Makalah yang paling menarik adalah yang mengklaim hasil mutakhir.


Para peneliti berkomentar bahwa algoritme ini sangat kuat dan mengungguli baseline.


Apa yang menjadikannya kandidat yang baik untuk sinyal tipe konten yang bermanfaat adalah bahwa ini adalah algoritme sumber daya rendah yang berskala web.


Sebagai kesimpulan, mereka menegaskan kembali hasil positif:


“Makalah ini berpendapat bahwa pendeteksi yang dilatih untuk membedakan manusia vs. teks yang ditulis mesin adalah prediktor yang efektif untuk kualitas bahasa halaman web, mengungguli pengelompokan spam yang diawasi pada awal.”


Kesimpulan dari makalah penelitian positif tentang terobosan tersebut dan mengungkapkan harapan bahwa penelitian tersebut akan digunakan oleh orang lain.


Tidak disebutkan penelitian lebih lanjut yang diperlukan.


Makalah penelitian ini menjelaskan terobosan dalam mendeteksi halaman web berkualitas rendah.


Kesimpulannya menunjukkan bahwa, menurut saya, ada kemungkinan itu bisa masuk ke dalam algoritme Google.


Karena dideskripsikan sebagai algoritme "skala web" yang dapat digunakan dalam "pengaturan sumber daya rendah", ini berarti algoritme ini adalah jenis algoritme yang dapat ditayangkan dan dijalankan secara berkelanjutan, seperti yang dikatakan sinyal konten yang membantu melakukan.


Kami tidak tahu apakah ini terkait dengan pembaruan konten yang bermanfaat, tetapi ini jelas merupakan terobosan dalam ilmu pendeteksian konten berkualitas rendah.

Post a Comment

Lebih baru Lebih lama

IKLAN BAWAH JUDUL