Discussioni aiuto:Content Translation

Da Wikipedia, l'enciclopedia libera.
Jump to navigation Jump to search

Prossimi passi per lo strumento di traduzione[modifica wikitesto]

Content translation sta avendo successo nel facilitare il processo di traduzione in molte comunità Wikipedia. Per supportare al meglio i bisogni dei traduttori, abbiamo in programma di abilitare il supporto alla traduzione automatica per l'italiano nelle prossime settimane.

Content Translation fornisce una traduzione automatica come contenuto iniziale che gli editor devono rivedere e migliorare. La traduzione automatica è fornita come punto di partenza, e i traduttori sono fortemente incoraggiati (lo strumento mostra avvertimenti in tal senso) a riscrivere il contenuto per eliminare errori e rendere la traduzione più naturale. L'uso della traduzione automatica resta opzionale nello strumento, ma è regolarmente usato nelle lingue in cui è disponibile come un pratico punto di partenza.

In base ai risultati delle altre Wikipedia maggiori in cui la traduzione automatica è disponibile, le voci tradotte in questo modo hanno una probabilità minore di essere cancellate, rispetto alle voci iniziate ex novo. Per esempio, sulla Wikipedia in francese nel 2018 la percentuale di cancellazione è stata del 6% per le voci create con Content Translation, e del 23,6% per nuove voci create diversamente. Su quella in spagnolo, nello stesso anno, la percentuale di cancellazioni è stata del 12,5% per le traduzioni, e del 33,2% per nuove voci create in altro modo.

Al momento la traduzione automatica non è ancora abilitata per l'italiano, ed è stata spesso richiesta dai volontari. Abbiamo in programma di espandere il supporto alla traduzione automatica in italiano date le seguenti migliorie recenti:

  • Nuovi meccanismi di controllo qualità. La nuova versione di Content translation (abilitata di default nel gennaio 2019) contiene più meccanismi di controllo qualità per le traduzioni automatiche. Adesso lo strumento incoraggia i traduttori a rivedere le traduzioni automatiche iniziali paragrafo per paragrafo, tiene traccia in una categoria apposita di quelle traduzioni pubblicate con contenuto non modificato che gli editor possono revisionare, e impedisce la pubblicazione di quelli che eccedono i limiti stabiliti. I limiti per impedire la pubblicazione diventano più rigorosi per utenti con alle spalle traduzioni già cancellate, utenti che ignorano gli avvisi, e casi in cui più paragrafi contengano testi non modificati. In questo modo, i limiti si adattano per ridurre un potenziale abuso ricorrente dello strumento.
  • Nuovi servizi di traduzione disponibili. Abbiamo anche ampliato i servizi di traduzione esistenti integrando Google Translate, che si ritiene fornisca traduzioni di buona qualità per diverse combinazioni linguistiche. Tutti i servizi di traduzione sono integrati in modo sicuro così che solo il contenuto di Wikipedia, e non le informazioni sull'utente, sia condiviso con questi servizi esterni, nel rispetto della privacy dell'utente.

Riteniamo che una traduzione automatica iniziale, con adeguati meccanismi di controllo della qualità, renda più semplice per i traduttori creare delle traduzioni di più alta qualità. Le osservazioni correnti mostrano che nell'ultimo mese sulla Wikipedia in italiano la maggior parte delle traduzioni (80,19%) sono state pubblicate con il livello atteso di modifiche rispetto a quelle che sono state aggiunte alle categorie di servizio perché siano revisionate più attentamente dalla comunità (19,81%). Si noti che in molte di queste una traduzione automatica già buona può necessitare meno modifiche del previsto. Per i casi più estremi, con il 99% o più di contenuti non modificati, o per traduzioni che includano 10 o più paragrafi con più dell'80% di contenuti non modificati ciascuno, lo strumento previene direttamente la pubblicazione della traduzione.

Vogliamo che la comunità di editor valuti la nuova funzione e ci dia feedback su come aiuti a creare traduzioni di buona qualità. Al fine di capire meglio l'impatto complessivo, forniamo ulteriori dettagli e meccanismi per misurare gli effetti nel processo di creazione del contenuto. A traduzione automatica abilitata per l'italiano misureremo con attenzione speciale l'impatto in termini di contenuti creati e di feedback dagli utenti. Lasciate pure il vostro feedback in questo thread.

Grazie! Quiddity (WMF) (msg) 20:26, 5 giu 2019 (CEST)

Sta avendo successo? Dalla qualità delle traduzioni che vedo in giro non si direbbe...
La statistica sulle cancellazioni comunque non dimostra nulla. E' ovvio che autopromozioni, rilevanze locali, C1 e altre cose non enciclopediche derivino più probabilmente da iniziative personali che da traduzioni --Bultro (m) 23:51, 11 giu 2019 (CEST)
Successo un paio di palle. Il metodo attuale di tradurre i template è una schifezza, dato che obbliga a inserire i nomi equivalenti dei parametri in altre lingue come alias nella sezione templateadata - invece di inserirli separatamente in una lista dedicata ai soli termini da tradurre. Ho chiesto almeno tre volte nella pagina di discussione dello strumento di discussione di smettere di tradurre i template di citazione alla sperandio, quando lasciandoli non tradotti ci pensa un bot a tradurli in maniera molto più corretto. Richieste ogni volta completamente ignorate.--Moroboshi scrivimi 04:27, 12 giu 2019 (CEST)
Condivido quanto scrive Bultro. Con gli stessi dati statistici si può dimostrare tutto e il contrario di tutto. Comunque ben venga il supporto dell'italiano perché nonostante le criticità segnalate da Moroboshi, avere già un testo predigerito è un aiuto importante. Poi ovviamente occorre accendere il cervello e sistemare il testo per bene, ma un po' di lavoro sarà già stato fatto. --Lepido (msg) 09:13, 12 giu 2019 (CEST)
Per un nuovo utente è certamente più facile utilizzare content translation rispetto al normale editor, per questo ne incoraggio l'utilizzo in progetti come questo questo. Però la gestione di note e template è ancora scarsa, rendendo indispensabile non solo un passaggio in sandbox prima della pubblicazione definitiva (il che va bene), ma tendenzialmente anche che a metterci mano sia un utente esperto, visto che si creano una serie di errori troppo difficili da sistemare per un nuovo utente. --Niccolò "Jaqen" Caranti (OBC) (msg) 12:30, 12 giu 2019 (CEST)

[ Rientro] Va detto che dall'introduzione dell'inserimento dei template (operazione estranea al tool di traduzione, comunque) le cose vanno molto meglio. Ma Moroboshi ha ragione da vendere: il tool lascia refusi che obbligano l'utente che lo usa ad inserire un {{wip}} per poi correggere col wikitesto tutti i glitch lasciati dal tool. Stiamo parlando di Note, template male o parzialmente inseriti, ma anche del codice inutile e dannoso (tutti i tag HTML che non servono a nulla). Per un tool in sviluppo da anni e in beta test su numerosi progetti, sorprende che rimanga così tanto lavoro da fare. Per le versioni precedenti ci si chiedeva addirittura se qualcuno le avesse mai testate. --Ruthven (msg) 12:42, 12 giu 2019 (CEST)

Thanks for all the comments. Content translation is constantly being improved. There are still important aspects pending, especially related to references, templates and other complex elements that we plan to improve while the tool is still in beta, but that is a different discussion. The current proposal is focused on providing the option for using machine translation as a starting point for Italian. Our hypothesis is that by providing an initial translation, editors will have more time to focus on improving the article quality. Statistics don't tell the whole story, but may be a useful data point. In this case, I agree that translations benefit from the work done by another community in terms of checking notability, verifiability, etc. but that's the purpose of the tool: make it easy to reuse those efforts. Measuring the quality of the articles created for more than 300 languages is complex, and that's why we start conversations like this one to get the feedback from the editors. Thanks for your feedback! --Pginer-WMF (msg) 16:13, 12 giu 2019 (CEST)
[@ Pginer-WMF, Quiddity (WMF)] There are still very big problems in importing notes formatted with templates and infoboxes. I take more time to fix these bugs, than translating by myself without the CT. I have already reported the problem (many other it.wikipedians did too), but so far you have never answered and you have not solved the bug. Please fix these urgent issues, then we can talk about authomatic translation.--Holapaco77 (msg) 18:48, 12 giu 2019 (CEST)
I agree that support for References/templates is a key area for improvement. We are working on it and we got positive feedback from some wikis about the visible improvements already, but there are still more improvements to be done. Templates are created independently on each wiki and mapping them depends on the availability of template metadata. This makes the experience different on each wiki, so we encourage to report specific issues with the details that allow to isolate each case. Please, feel free to share those reports and I'll investigate whether the specific issues are already captured in tickets. Currently we are working on both, a better way to map them automatically and better communicate issues when that is not possible. On the other hand, enabling machine translation is just a configuration change that is independent from the references work and does not take a single minute of engineering effort out of it. So I see no need for making these aspects to be dependent on each other. --Pginer-WMF (msg) 13:33, 13 giu 2019 (CEST)
The problem with current mapping of parameter using alias of parameters name in TemplateData is that pollute the template with false alias, would be better to use a separate list on TemplateData to store original parameter/translate parameter pairs.--Moroboshi scrivimi 14:03, 13 giu 2019 (CEST)
The current approach for mapping is not ideal, it considers parameter names and aliases (apart from some additional Parsoid metadata), which does not cover many cases and leaves little room for editors to customize and fix the missing mappings. We have plans to improve the automatic mapping based on the equivalent translations of parameter names as well as create a centralized registry for uses to provide their mapping corrections. This may take some time and the temporary solution can be used if the extra noise in metadata is acceptable for a while, but we are aware than a better solution is needed.--Pginer-WMF (msg) 09:46, 14 giu 2019 (CEST)

[ Rientro][@ Pginer-WMF] Please do not implement the possibility of embedding a machine-translation start page. Many users will use only that and pages translated with machine translation tools are speedy deleted on it.wiki. It would frustrate both the users and the developers, while wasting the sysops time.

WRT the mapping, you can safely start with a minimal mapping for citing sources (title, author, date, and url for web sites), which is safe, and add other stuff later. The issue is that aiming at providing a full functional tool, we only obtain a no-working tool. --Ruthven (msg) 11:20, 14 giu 2019 (CEST)

Almeno abbiamo superato la frase di quando la risposta alla comunità era "bloccarne l'uso" e "non lamentarti dopo" senza voglia di contribuire al miglioramento dello strumento. Buona fortuna. Sì, la traduzione automatica dei template sarebbe utile (e a volte funziona), ma è un qualcosa in più, senza non ti blocca l'utilizzo. --Emanuele676 (msg) 18:51, 14 giu 2019 (CEST)
[@ Ruthven] Content translation has mechanisms to encourage users to edit the initial translations and prevent publishing machine translation that has not been modified enough (more details). For cases where editors still reported problems, we have been able to successfully adjust the limits to prevent the creation of low quality translations. In any case, machine translation is provided as an optional feature that users decide whether to use or not. If users get frustrated because they have to edit the initial machine translation, they can still start from scratch their translation. Our observations from other wikis suggest that machine translation is useful for users to create good content, and we think that enabling it for Italian would have similar results, and we want the community to help us evaluate this, since community feedback is essential to evaluate the impact this has in the wiki.--Pginer-WMF (msg) 12:38, 18 giu 2019 (CEST)
[@ Pginer-WMF] Hi! As machine translations are still low quality ones, and in order not to frustrate the users that see their work speedy deleted, the mechanism that checks if the initially provided machine translation has been modified is a good one. If none or few changes were made, it would be safe to assume that the machine translation is published as it is. This mechanism works as a safeguard, and is mandatory for the Italian community to allow the tool to be deployed (at least with the machine translation enabled). It is to be expected that the limits mentioned should be corrected, because language-dependent. I'll dig a little more in the links you've provided... Thanks --Ruthven (msg) 16:11, 18 giu 2019 (CEST)
Yes. The current limits are defined to be useful in general, but they can be adjusted to the needs of the community, making sure that translations are modified as much as needed based on the quality that machine translation provides for the language. In order to do this, we need two things: (a) enable machine translation to evaluate how it works , and (b) get feedback from native speakers that allows to adjust the limits if further customization is needed. So it is good to point that enabling machine translation is not the end, but the beginning of a process to adjust it to the needs of the community. --Pginer-WMF (msg) 12:40, 20 giu 2019 (CEST)
Symbol question.svg Domanda: Thanks. The pages created with the tool are already tagged with Content translation/V2 and Content translation. Shall we have a new tag for machine translation based pages? So that we'll be able to patrol those contributions better. --Ruthven (msg) 15:52, 20 giu 2019 (CEST)
The tool keeps track of translations published with a significant amount of unreviewed contents in this tracking category. Those are articles with unedited machine translation or having parts of the content in the original language according to the limits, but there is no specific tag for machine translation. Note that for a single translation a user can use machine translation for some paragraphs and not use it for others; also, the user can rewrite a paragraph completely and leave unedited contents for another. We expect the tracking category to be useful for this kind of patrolling, and we are interested in hearing more about how the category works for the community needs: are there too many articles that are not really problematic (as reported a few months back)? are there problematic articles not in the category?. In addition, the translation statistics page shows the number of published and deleted translations, which can be also useful for an overview of the effects of the change and future adjustments in the limits. Thanks! --Pginer-WMF (msg) 10:26, 21 giu 2019 (CEST)
Thanks everyone for the feedback so far. We'll proceed to enable machine translation for Italian during this week. I created a ticket to keep track of the change, and to capture relevant info and links. As discussed above we'll keep an eye on the translations created after the change, listen to your impressions, and consider adjusting the limits based on those to make sure the tool works in the best way for the needs of the Italian community. Thanks! --Pginer-WMF (msg) 16:48, 25 giu 2019 (CEST)
The change is effective now. You can use machine translation when translating into Italian for the languages pairs supported on each service. Please, share your experience using it or reviewing the articles created by others since the change. Your feedback is very important and will allow us to tweak the system according to the needs from the community. Thanks!--Pginer-WMF (msg) 11:30, 26 giu 2019 (CEST)
Thank you Pginer-WMF. Just a question: in the maintenance category Categoria:Pagine_con_traduzioni_non_revisionate, it is not clear to me how the articles are put in it, and what action we've to perform to take the articles out of it. I've seen articles written by verified users that are in the category, for instance, or with every single edit verified by hand. Cheers --Ruthven (msg) 11:43, 26 giu 2019 (CEST)
Articles are added to the maintenance category based on the limits system. Depending on the number of problematic paragraphs a translation can be prevented from published, or allowed to be published but still added to the tracking category to facilitate review. We have been adjusting the criteria for adding articles to the category based on user feedback, and there are still aspects to improve (e.g., math formulas counted as unmodified content). So it is possible that articles that were added earlier don't really have problems. Once articles are reviewed, the category can be removed. We are looking for feedback about the usefulness of the category, but mainly focused on new articles published. For example, from the 10 articles published with the tool only one was added to the tracking category.--Pginer-WMF (msg) 12:45, 27 giu 2019 (CEST)

I have compiled all the articles that were published yesterday (June 26) and included relevant metadata to facilitate the community to evaluate the quality of the content created and the need to make further adjustments. It is still a small sample, but looking to specific examples can be useful. this is the list:

  • Casa Paškov translated from English with 83% unmodified machine translation, using Google Translate.
  • Rejection sampling translated from English with 73% of unmodified machine translation, using Google Translate.
  • Mercyhurst University translated from English with 92% of unmodified machine translation, using Google translate.
  • SpaceX CRS-18 translated from English with 19% of unmodified contents combined copying content from source and using Google Translate for a paragraph. – OK translation --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • Seconda battaglia di Casteldelfino translated from English with 37% of unmodified machine translation, using Google Translate. ok translation, but there are no sources --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • Combattimenti di Saint-Tropez translated from French with 96% of unmodified machine translation, using Google Translate. terrible translation, could have been speedy deleted --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • Battaglia di Villafranca (1744) translated from English with 98% of unmodified machine translation, using Google Translate. – not a good translation, several mistakes in the text --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • Vittorio Francesco, Marchese di Susa translated from English with 93% of unmodified machine translation, using Google Translate. – terrible translation, normally would have been speedy deleted --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • Algoritmo Ziggurat translated from English with 74% of unmodified machine translation, using Google Translate. – average translation, it has several translation and formatting mistakes that do not match it.wiki conventions --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
  • New Shepard translated from English with 93% of unmodified machine translation, using Google Translate. This translation was added to the tracking category for translations needing review. – not a good translation, doubt if speedy deleting it or heavily modifying it --Ruthven (msg) 22:24, 27 giu 2019 (CEST)

Please take a look to the created translations and provide any feedback about their quality and the aspects that you think may need adjustments in the limits system. Thanks! --Pginer-WMF (msg) 12:55, 27 giu 2019 (CEST)

[@ Pginer-WMF] I've checked some translations (my comments above). There are several issues. First, the grammar and syntax: clearly there are pages nor double checked by the user that translated them. Then, there are several formatting mistakes (this is what we were saying above: the translation tool introduces errors in the pages). Finally, and this is more worrisome, it allows to translate articles without notes/sources. This must be avoided as much as possible, on one side, because the inclusion criteria are different from project to project, secondly because it is an open door to nonsense and original researches. It is possible to block the translation of articles without a single source, for instance? --Ruthven (msg) 22:24, 27 giu 2019 (CEST)
Thanks for the feedback,[@ Ruthven]. The annotations provided are very useful. Regarding enforcing the presence of references, that seems a more general policy for article creation, not just for translations. Content translation follows the same policies for article creation as other tools. If a wiki has an edit filter preventing the creation of articles without references, that will also apply to articles created with Content translation. However, users may work on the content on multiple iterations, adding references after the article was created. Thus, limiting it too much can conflict with other legitimate workflows of other editors. In particular, Content translation is intended to create a first version of the article that users can improve with the regular editor after (e.g., for 8 out of 10 articles above the editor that created them was editing them further). It is also worth noting that deleting a published translation makes the limits more strict for the author next translations, which seems relevant here since several of the translations flagged come from the same editor. Next week I'll analyze another sample of articles, and if the same patterns repeat we can adjust the overall limit of machine translation to make a bit more strict. --Pginer-WMF (msg) 10:55, 28 giu 2019 (CEST)
[@ Pginer-WMF] Thanks for your reply. It is worth noting that all the translations need to be corrected after the publication. It happened also to SpaceX CRS-18, and to several others that I've checked yesterday. There is also another feature that should be added, if possible. On it.wiki we're used to indicate translations using {{Tradotto da}} (as in Discussione:SpaceX CRS-18): can the template be added directly by the tool? --Ruthven (msg) 11:23, 28 giu 2019 (CEST)
Thanks for the feedback, Ruthven. Adding translation-related templates makes sense and we captured the idea in this ticket. This is not trivial to support in a general way since different wikis may have different templates (even if they are connected through Wikidata may have different parameters) and processes. I captured your feedback in the ticket since it helps to have a better understanding on the needs of specific wikis. Thanks! --Pginer-WMF (msg) 10:36, 3 lug 2019 (CEST)

I compiled all the articles created with Content translation during the 1-3 of July. In these three days, 16 articles were created with Content translation which is a 2.3% of the total of articles created in the period (685). This is the list:

  • Roman Opałka translated from English with 67% of unmodified machine translation, using Google Translate. OK translation, some formatting errors --Ruthven (msg) 14:24, 2 ago 2019 (CEST)
  • Tairua translated from English with 71% of unmodified machine translation, using Google Translate.
  • Centro per lo sviluppo del Donbass translated from English with 7% of unmodified contents mostly manual translation from scratch with few paragraphs using Google Translate.
  • Enrique Pichon-Rivière translated from Spanish manually translating with 0% of unmodified machine translation.
  • Isola Slipper translated from English with 63% of unmodified machine translation, using Google Translate.
  • Violenza fascista e antifascista in Italia (1919–1926) translated from English with 83% of unmodified machine translation, using Google Translate. Deleted.
  • Constantia (Città del Capo) translated from English with 90% of unmodified machine translation, using Google Translate. - short article, a couple of bloomers --Ruthven (msg) 14:13, 2 ago 2019 (CEST)
  • Velocità di fuga della longevità translated from English with 65% of unmodified machine translation, using Google Translate.
  • Stefan Shundi manually translated from Albanian.
  • RNP messaggero translated from English with 83% of unmodified machine translation, using Google Translate.
  • Frank Carter & The Rattlesnakes translated from English with 83% of unmodified machine translation, using Google Translate.
  • Sopa teóloga (Perú) translated manually for Spanish.
  • Bagni califfali translated from English with 73% of unmodified machine translation, using Google Translate.
  • ECLiPSe translated from English with 87% of unmodified machine translation, using Google Translate.
  • Castello della Napoule translated from French with 89% of unmodified machine translation, using Google Translate. - short article, OK translation --Ruthven (msg) 14:13, 2 ago 2019 (CEST)
  • Palazzo Wallenstein translated from English with 78% of unmodified machine translation, using Google Translate.

Please take a look to the created translations and provide any feedback about their quality and the aspects that you think may need adjustments in the limits system. Thanks! --Pginer-WMF (msg) 18:43, 4 lug 2019 (CEST)

Inserimento Template:Tradotto da[modifica wikitesto]

Carissimi, si è già parlato di far inserire automaticamente allo strumento il {{tradotto da}} nella discussione delle voci. Sarebbe tecnicamente possibile? So che da un punto di vista di copyright non è strettamente necessario, ma sarebbe molto utile ad esempio per rendere più evidente che si tratta di una traduzione. Segnalo all'Officina. --Epìdosis 16:25, 17 set 2019 (CEST)