A apărut o carte de telefon online cu numere din RDS, RT, UPC și
mobile.
Situl e frumos, cu diacritice, dar dacă vrei să cauți nume scrise cu
diacritice nu obții nici un rezultat. Am adăugat un comentariu despre
asta pe blogul lor, dar răspunsul primit nu e deloc încurajator pentru
cei care vor să scrie cu diacritice pe internetul românesc. E vreo
metodă pentru adăugarea automată de diacritice la cuvintele/numele din
bazele de date ?
O posibilitate ar fi folosirea unei liste de nume proprii ce conține deja diacritice. Cea de la http://www.archeus.ro/lingvistica/NumeProprii mai are și scăpări, dar majoritatea sunt cu diacritice. E un punct de plecare.
Ionuț.
În data de 09.04.2008, Mihai Croitoru <mihai...@gmail.com> a scris:
> A apărut o carte de telefon online cu numere din RDS, RT, UPC și > mobile.
> Situl e frumos, cu diacritice, dar dacă vrei să cauți nume scrise cu > diacritice nu obții nici un rezultat. Am adăugat un comentariu despre > asta pe blogul lor, dar răspunsul primit nu e deloc încurajator pentru > cei care vor să scrie cu diacritice pe internetul românesc. E vreo > metodă pentru adăugarea automată de diacritice la cuvintele/numele din > bazele de date ?
E o idee, într-adevăr. Dar se vede că administratorilor de sistem nu
le surîde prea mult ideea introducerii diacriticelor, așa că mai
degrabă păstrează bazele de date fără diacritice și scot diacriticele
de la căutări. Iar dacă totuși bagă diacritice, o să se găsească
utilizatori care să zică că nu e bine, pentru că ei scriu fără
diacritice (majoritatea la momentul de față) și nu obțin nici un
rezultat (invers de ce mi s-a întîmplat mie). Ar trebui un program cam
cum are Google, care reușește să ofere rezultate bune indiferent dacă
cuvîntul introdus este cu sau fără diacritice.
Am verificat și la Cartea Albastră (RDS) și Pagini Albe (RT). E
aceeași situație. Căutările cu diacritice nu generează rezultate.
> On 9 Apr, 16:02, "Ionuț Păduraru" <ionut.c.padur...@gmail.com> wrote: > > O posibilitate ar fi folosirea unei liste de nume proprii ce conține deja > > diacritice. Cea de la http://www.archeus.ro/lingvistica/NumeProprii
> E o idee, într-adevăr. Dar se vede că administratorilor de sistem nu > le surîde prea mult ideea introducerii diacriticelor, așa că mai > degrabă păstrează bazele de date fără diacritice și scot diacriticele > de la căutări. Iar dacă totuși bagă diacritice, o să se găsească > utilizatori care să zică că nu e bine, pentru că ei scriu fără > diacritice (majoritatea la momentul de față) și nu obțin nici un > rezultat (invers de ce mi s-a întîmplat mie). Ar trebui un program cam > cum are Google, care reușește să ofere rezultate bune indiferent dacă > cuvîntul introdus este cu sau fără diacritice.
> Am verificat și la Cartea Albastră (RDS) și Pagini Albe (RT). E > aceeași situație. Căutările cu diacritice nu generează rezultate.
Administratorii sunt prost informați. O coloană într-un tabel mysql cu colația utf8_general_ci populată cu diacritice generează aceleași rezultate și dacă se caută cu diacritice și dacă se caută fără. O să revin cu un mic script care rezolvă baza de date, o să-l prezint și adminstratorului de acolo pentru a-l aplica dacă dorește.
Mai sunt unii programatori care codează diacriticele în entități, una dintre cele mai dese dovezi de lene sau prostie, astfel că se trimite la mysql o prostie de gen „barcó".
On 9 Apr, 16:59, "Alexandru Szasz" <alex...@gmail.com> wrote:
> Administratorii sunt prost informați.
> Mai sunt unii programatori care codează diacriticele în entități, una
> dintre cele mai dese dovezi de lene sau prostie, astfel că se trimite
> la mysql o prostie de gen "barcó".
Dacă n-ai avea atîtea pe cap, o pagină pusă undeva cu scriptul și cu
niște exemple ar putea rezolva nelămuririle multora. Degeaba vorbim
noi de diacritice dacă profesioniștii IT + web de la noi sînt
reticenți în privința lor. Adică unii din ei au ajuns frîne în calea
normalizării situației în ce privește diacriticele.
Cotidianul și-a schimbat situl recent și a cerut păreri de la
vizitatori. Fiecare al patrulea sau al cincilea comentariu conținea o
referire la introducerea diacriticelor (adică lumea cerea să fie
introduse). Cu toate astea mă îndoiesc că administratorul le va băga,
pînă acum nu s-a întîmplat nimic și nici n-a promis nimeni de acolo că
o va face...
On Wed, 9 Apr 2008 06:41:42 -0700 (PDT), Mihai Croitoru wrote: > Ar trebui un program cam cum are Google, care reușește să ofere > rezultate bune indiferent dacă cuvîntul introdus este cu sau fără > diacritice.
dexonline.ro merge bine indiferent de diacritice și indiferent de virgulă sau sedilă.
On Wed, 9 Apr 2008 16:59:48 +0300, Alexandru Szasz wrote: > Mai sunt unii programatori care codează diacriticele în entități, una > dintre cele mai dese dovezi de lene sau prostie, astfel că se trimite > la mysql o prostie de gen „barcó".
De obicei asta se întâmplă dacă pagina care conține formularul în care se introduce textul are codarea declarată pe 8 biți în loc de Unicode. Caracterele care nu cad în respectiva codare sunt reprezentate ca entități din alea (browserul face asta la momentul trimiterii).
On 9 Apr, 21:07, Cristian Secară <or...@secarica.ro> wrote:
> dexonline.ro merge bine indiferent de diacritice și indiferent de
> virgulă sau sedilă.
Exemplul e bun și foarte cunoscut, dar sînt destui responsabili cu
situri foarte cunoscute la care nu se obțin rezultate la căutările cu
diacritice. Cine caută un cuvînt banal ca "București" (ș cu sedilă) nu
obține nimic pe Siturile Adevărul, Cotidianul și Ziua. Nici pe
Trilulilu nu merge să cauți cu diacritice (fără diacritice merge).
> On 9 Apr, 21:07, Cristian Secară <or...@secarica.ro> wrote: > > dexonline.ro merge bine indiferent de diacritice și indiferent de > > virgulă sau sedilă.
> Exemplul e bun și foarte cunoscut, dar sînt destui responsabili cu > situri foarte cunoscute la care nu se obțin rezultate la căutările cu > diacritice. Cine caută un cuvînt banal ca "București" (ș cu sedilă) nu > obține nimic pe Siturile Adevărul, Cotidianul și Ziua. Nici pe > Trilulilu nu merge să cauți cu diacritice (fără diacritice merge).
> E vreo
> metodă pentru adăugarea automată de diacritice la cuvintele/numele din
> bazele de date ?
O rezolvi pentru prenume cu o listă de referință, pentru numele de
famile nici vorbă, mai ales când ai o întreagă carte de telefon. Doar
așa, dacă iei fiecare nume și-l verifici manual.
E bine, dar ai acolo undeva cuvîntul "lucră". Cred că "lucrează" ar fi
mai potrivit, de "lucră" n-a auzit multă lume dinafara Transilvaniei.
La un exemplu ai "Razvan Margaritescu" ca nume și ca prenume
"Secarica". Poate ai vrut să faci o chestie cu poreclă și ai renunțat,
dar Secarica a rămas acolo.
> O să încerc să atac într-o zi și problema căutării într-un alt articol.
Aici e marea problemă. Nici portalurile nu stau prea bine la asta. Pe
situl de statistici SATI.ro cele mai vizitate portaluri sînt în ordine
Roportal.ro, Acasa.ro și Rol.ro.
Roportal e din Timișoara dar dacă vrei să cauți chiar "Timișoara"
softul elimină "ș"-ul și-ți spune că n-au fost găsite rezultate pentru
"Timioara". Adică diacriticele nu numai că nu sînt suportate, ele sînt
chiar eliminate, ca și cum n-ar trebui să apară în cuvinte.
Acasa.ro și Rol.ro sînt din București și suportă căutarea cu
diacritice, însă ele nu sînt afișate ca lumea (BucureĆŒti, BucureĆ ti)
în paginile cu rezultate.
Nici ziarele Libertatea.ro sau Cancan.ro nu suportă căutările cu
diacritice.
On 10 Apr, 03:00, Lucian Constantin <struct_bylight...@yahoo.com>
wrote:
> O rezolvi pentru prenume cu o listă de referință, pentru numele de
> famile nici vorbă, mai ales când ai o întreagă carte de telefon. Doar
> așa, dacă iei fiecare nume și-l verifici manual.
Probabil că nu merge cu adăugarea automată de diacritice la numele de
familie. Sînt și nume de familie de genul "Creanga" și "Creangă" sau
"Stanca" și "Stâncă", unde ambele variante sînt posibile, deci nu pot
fi adăugate automat diacritice în baza de date.
Soluția pare a fi cea adoptată de Dexonline.ro, omul să poată căuta cu/
fără diacritice și rezultatele afișate să fie aceleași.
On Wed, 9 Apr 2008 21:07:26 +0300, Cristian Secară wrote: > > Ar trebui un program cam cum are Google, care reușește să ofere > > rezultate bune indiferent dacă cuvîntul introdus este cu sau fără > > diacritice. > dexonline.ro merge bine indiferent de diacritice și indiferent de > virgulă sau sedilă.
De fapt dexonline.ro e singurul pe care îl știu să meargă corect. Google NU merge corect, pentru că nu știe să facă echivalarea între ș și ț cu virgule și nimic altceva și nu știu cui ar trebui să reclam asta. Am făcut mai demult o pagină de test pentru asta care (încă) îmi dovedește acest lucru http://www.secarica.ro/html/test_motor_de_cautare.html
> > dexonline.ro merge bine indiferent de diacritice și indiferent de > > virgulă sau sedilă.
> > Cristi
> Evident, numai că dexonline.ro e făcut de oameni serioși care gîndesc > de la A la Z, nu de diletanți cu pretenții de specialiști.
Nu e o știință, e ceva la îndemână. Dacă faci o baza de date cu setul de caractere UTF-8 primești în schimb funcționalitatea asta legată de căutarea cu diacritice.
> On 9 Apr, 22:23, "Alexandru Szasz" <alex...@gmail.com> wrote: > > Am scris un articol pe diacritice.ro despre subiectul ăsta:http://www.diacritice.ro/node/32 > > Sper să fie cuiva de folos.
> E bine, dar ai acolo undeva cuvîntul "lucră". Cred că "lucrează" ar fi > mai potrivit, de "lucră" n-a auzit multă lume dinafara Transilvaniei.
> On 10 Apr, 03:00, Lucian Constantin <struct_bylight...@yahoo.com> > wrote:
> > O rezolvi pentru prenume cu o listă de referință, pentru numele de > > famile nici vorbă, mai ales când ai o întreagă carte de telefon. Doar > > așa, dacă iei fiecare nume și-l verifici manual.
> Probabil că nu merge cu adăugarea automată de diacritice la numele de > familie. Sînt și nume de familie de genul "Creanga" și "Creangă" sau > "Stanca" și "Stâncă", unde ambele variante sînt posibile, deci nu pot > fi adăugate automat diacritice în baza de date.
Totuși nu există numele Margaritescu, există un procent pe care-l poți rezolva.
> Soluția pare a fi cea adoptată de Dexonline.ro, omul să poată căuta cu/ > fără diacritice și rezultatele afișate să fie aceleași.
Trebuie doar ca programatorii de ocazie români să înțeleagă că limba română nu încape în ISO-8859-1, nici în ISO-8859-2, de fapt orice pagină în ISO e o mare tâmpenie pentru că nu poți afișa decât limbile din acel ISO la un moment dat pe când cu UTF-8 ai posibilitatea să afișezi mai multe limbi în același timp.
Faptul că nu se poate căuta cu diacritice ține de proasta pregătire a programatorilor care fac saiturile alea. Chiar nu e o știință, nu trebuie decât să lucrezi cu setul de caractere UTF-8, nicio bucată de cod în plus ca să lucrezi cu diacritice.
Eu la Narro mai am o bucățică de cod într-un plugin care la salvare în baza de date convertește sedilele la virgule pentru a fi eu mulțumit când mă uit în baza de date și pentru a avea consistență. La afișare tot printr-un plugin permit utilizatorului să aleagă dacă vrea să vadă cu sedile sau cu virgule. Asta s-ar putea face automat în felul ăsta: virgule pentru orice diferit de Windows XP, sedile pentru Windows XP. Dar asta e ceva mai complex, măcar de ar fi sedile decât nimic.
On 10 Apr, 08:10, Cristian Secară <or...@secarica.ro> wrote:
> De fapt dexonline.ro e singurul pe care îl știu să meargă corect.
> Google NU merge corect, pentru că nu știe să facă echivalarea între ș
> și ț cu virgule și nimic altceva și nu știu cui ar trebui să reclam
> asta.
Nu știam de asta, rezultă că nici Google nu e perfect cînd vine vorba
de diacriticele românești. Într-adevăr, "bucurești" are vreo 50.000 de
rezultate, iar "bucurești" vreo 4 milioane. La fel în cazul lui
"țară" (20.000) față de "țară" (1,5 milioane). Ăsta ar fi încă un
argument în sprijinul căutării fără diacritice și mai general
împotriva folosirii diacriticelor pe internet. E destul de neplăcută
situația, cine are Vista e în pom dacă folosește căutări cu diacritice
pe Google. Așa că lumea e determinată să caute fără diacritice, iar
cei care au situri văd că de pe Google le vin numai căutări fără
diacritice. De aici ei trag concluzia că e bine să-și păstreze
siturile scrise fără diacritice, pentru că așa au mai mulți
vizitatori. E un cerc vicios unde și Google are o parte din vină.
Pentru reacții la adresa eficienței motorului Google se pot folosi
blogurile, cel oficial sau ale unor angajați (inclusiv unii români) :
Deci lucrurile sînt mai complicate decît apar la prima vedere, există
o parte nevăzută a aisbergului diacriticelor, cea din bazele de date
de la situri obișnuite sau de la megasituri de genul Google.
On Wed, 9 Apr 2008 22:50:38 -0700 (PDT), Mihai Croitoru wrote: > E destul de neplăcută situația, cine are Vista e în pom dacă > folosește căutări cu diacritice pe Google.
E și mai complicat. IE 7 are ca motor de căutare implicit pe www.live.com. Se poate schimba, dar e cam alambicat. Iar live.com suferă de aceeași problemă, în plus din ce testasem eu mai demult nu recunoaște ghilimelele românești dacă vreau să caut expresii complete.
On Thu, 10 Apr 2008 08:45:51 +0300, Alexandru Szasz wrote: > Faptul că nu se poate căuta cu diacritice ține de proasta pregătire a > programatorilor care fac saiturile alea. Chiar nu e o știință, nu > trebuie decât să lucrezi cu setul de caractere UTF-8, nicio bucată de > cod în plus ca să lucrezi cu diacritice.
Hm. Probabil că mai e ceva la nivel de bază de date (ceva de declarat pe acolo), pentru că, de exemplu, forumul meu phpBB l-am trecut la utf-8 acum mai mulți ani folosind o metodă cam empirică ce-i drept. Ca forum merge perfect, în schimb căutarea nu. Adică nu în sensul discuției de aici.
On 10 Apr, 09:12, Cristian Secară <or...@secarica.ro> wrote:
> E și mai complicat. IE 7 are ca motor de căutare implicit pewww.live.com. Se poate schimba, dar e cam alambicat.
> Iar live.com suferă de aceeași problemă, în plus din ce testasem eu
> mai demult nu recunoaște ghilimelele românești dacă vreau să caut
> expresii complete.
Toate motoarele de căutare mari (Google, Yahoo și Live) au probleme
cînd e vorba de căutarea cu diacritice. Folosirea lui Ș sau Ț (cu
virgulă) reduce drastic numărul de rezultate obținute, care e în
general de 10-100 de ori mai mic decît dacă se folosesc Ș și Ț (cu
sedilă). Dar chiar și acesta din urmă e de 5-10 ori mai mic decît dacă
nu se folosesc deloc diacritice.
Căutare cu Google (rezultate) :
"bucuresti" - 33 de milioane
"bucurești" - 4 milioane
"bucurești" - 50.000
Există un singur motor de căutare care nu are diferențe mari între
rezultatele obținute cu diacriticele cu sedilă, cu virgulă sau fără.
Din păcate nu este atît de bun precum Google sau Yahoo.
> On 10 Apr, 08:10, Cristian Secară <or...@secarica.ro> wrote: > > De fapt dexonline.ro e singurul pe care îl știu să meargă corect. > > Google NU merge corect, pentru că nu știe să facă echivalarea între ș > > și ț cu virgule și nimic altceva și nu știu cui ar trebui să reclam > > asta.
> Nu știam de asta, rezultă că nici Google nu e perfect cînd vine vorba > de diacriticele românești. Într-adevăr, "bucurești" are vreo 50.000 de > rezultate, iar "bucurești" vreo 4 milioane. La fel în cazul lui > "țară" (20.000) față de "țară" (1,5 milioane). Ăsta ar fi încă un > argument în sprijinul căutării fără diacritice și mai general > împotriva folosirii diacriticelor pe internet. E destul de neplăcută > situația, cine are Vista e în pom dacă folosește căutări cu diacritice > pe Google. Așa că lumea e determinată să caute fără diacritice, iar > cei care au situri văd că de pe Google le vin numai căutări fără > diacritice. De aici ei trag concluzia că e bine să-și păstreze > siturile scrise fără diacritice, pentru că așa au mai mulți > vizitatori. E un cerc vicios unde și Google are o parte din vină.
Sunt două litere diferite, nu putem cere Google să facă o asemenea imensă excepție. Soluția e să dispară toată metodele de a scrie cu diacritice cu sedile pe sistemele de operare care pot vedea virgulele. Adică să nu se poată scrie cu sedile decât în Windows XP. Apoi lobby la toate saiturile să-și convertească articolele. Acum nu putem cere asta fiindcă procentul de utilizatori XP e încă mare.
> On Thu, 10 Apr 2008 08:45:51 +0300, Alexandru Szasz wrote:
> > Faptul că nu se poate căuta cu diacritice ține de proasta pregătire a > > programatorilor care fac saiturile alea. Chiar nu e o știință, nu > > trebuie decât să lucrezi cu setul de caractere UTF-8, nicio bucată de > > cod în plus ca să lucrezi cu diacritice.
> Hm. Probabil că mai e ceva la nivel de bază de date (ceva de declarat pe > acolo), pentru că, de exemplu, forumul meu phpBB l-am trecut la utf-8 > acum mai mulți ani folosind o metodă cam empirică ce-i drept. Ca forum > merge perfect, în schimb căutarea nu. Adică nu în sensul discuției de > aici.
Configurarea bazei de date înseamnă și configurarea serverului. Ori pui serverul să lucreze cu nume utf8 ori apelezi după fiecare apel mysql_select_db interogarea mysql_query('SET NAMES UTF8'). Asta-ți lipsea ție cu phpBB.
Dacă vrei, trimite-mi baza de date exportată într-un fișier sql, o analizez, îți trimit baza de date convertită corect la utf8 și scriu și un articol pe tema asta pentru ceilalți.
Nu mai folosesc phpBB de mult, n-am eu un forum pe care să încerc.
> On 10 Apr, 09:12, Cristian Secară <or...@secarica.ro> wrote: > > E și mai complicat. IE 7 are ca motor de căutare implicit pewww.live.com. Se poate schimba, dar e cam alambicat.
> > Iar live.com suferă de aceeași problemă, în plus din ce testasem eu > > mai demult nu recunoaște ghilimelele românești dacă vreau să caut > > expresii complete.
> Toate motoarele de căutare mari (Google, Yahoo și Live) au probleme > cînd e vorba de căutarea cu diacritice. Folosirea lui Ș sau Ț (cu > virgulă) reduce drastic numărul de rezultate obținute, care e în > general de 10-100 de ori mai mic decît dacă se folosesc Ș și Ț (cu > sedilă). Dar chiar și acesta din urmă e de 5-10 ori mai mic decît dacă > nu se folosesc deloc diacritice.
> Căutare cu Google (rezultate) :
> "bucuresti" - 33 de milioane
> "bucurești" - 4 milioane
> "bucurești" - 50.000
Apropo, au fost o serie de nemulțumiri din cauza faptului că Google afișa aceleași rezultate și la căutarea cu diacritice și la căutarea fără (așa cum am vrea noi) și a modificat lucrurile astfel încât să nu se mai facă normalizarea diacriticelor, de aceea pentru fiecare diacritică ai alte rezultate. Așa mi se pare și normal. Să sufere cine nu știe să scrie, nu cine știe.
On 10 Apr, 10:32, "Alexandru Szasz" <alex...@gmail.com> wrote:
> Sunt două litere diferite, nu putem cere Google să facă o asemenea
> imensă excepție.
> Soluția e să dispară toată metodele de a scrie cu diacritice cu sedile
> pe sistemele de operare care pot vedea virgulele. Adică să nu se poată
> scrie cu sedile decât în Windows XP. Apoi lobby la toate saiturile
> să-și convertească articolele. Acum nu putem cere asta fiindcă
> procentul de utilizatori XP e încă mare.
Nu sînt două litere diferite, ci e aceeași literă scrisă diferit.
Adică Ș cu sedilă e aceeași literă cu Ș cu virgulă, un cuvînt scris cu
oricare din cele două tipuri de literă are același înțeles (București
= București).
Deci Google, Yahoo și MS ar trebui ca la căutarea în pagini scrise în
română a unui cuvînt ce conține Ș sau Ș (de ex. ȘI) să ofere exact
aceleași rezultate, adică paginile care conțin cuvîntul respectiv în
ambele moduri de scriere (ȘI sau ȘI). Evident că nu trebuie să
prezinte și paginile ce conțin cuvîntul SI, care e cu totul altceva
(nota muzicală). Nu cred că Google ar avea mari probleme să asimileze
Ș cu Ș (Ț cu Ț) și invers.
E mai ușor și mai eficient ca Google, Yahoo și MS să ia o astfel de
măsură, decît ca cele cîteva milioane de utilizatori români să-și
schimbe modul de a scrie. Iar dacă ar face-o, Google oricum le-ar
oferi rezultate slabe. Adică ei ar scrie corect cu Ș cu virgulă și
Google nu le-ar da și rezultatele scrise cu Ș cu sedilă, care sînt
majoritare acum.
On 10 Apr, 10:38, "Alexandru Szasz" <alex...@gmail.com> wrote:
> Apropo, au fost o serie de nemulțumiri din cauza faptului că Google
> afișa aceleași rezultate și la căutarea cu diacritice și la căutarea
> fără (așa cum am vrea noi) și a modificat lucrurile astfel încât să nu
> se mai facă normalizarea diacriticelor, de aceea pentru fiecare
> diacritică ai alte rezultate. Așa mi se pare și normal. Să sufere cine
> nu știe să scrie, nu cine știe.
De suferit nu suferă decît limba română, dar cum ea nu poate să țipe
nimeni n-o bagă în seamă, nici măcar Institutul de Lingvistică al
Academiei, cel care ar trebui să se ocupe de chestia asta.
Utilizatorii încearcă toate tipurile de căutări și dacă văd că
rezultatele optime sînt cele obținute pentru căutarea fără diacritice,
vor căuta în acest fel. Cei care au situri văd acest comportament și
se opun introducerii diacriticelor pentru că socotesc că ar pierde din
vizitatori. Cineva care își trece situl la diacritice va avea mai
puțini vizitatori din Google decît altcineva care rămîne la scrisul
fără diacritice (situri cu aceaași tematică, evident). Deci în cazul
siturilor comerciale sau a celor care trăiesc din publicitate asta
înseamnă pierdere de venituri.
Pentru un sit cu vizibilitate mare și care nu deprinde prea mult de
Google, trecerea la diacritice e posibilă și de dorit (vizitatorii
citesc mai ușor). Evenimentul Zilei a făcut mișcarea asta acum vreo 3
luni fără să piardă foarte mulți vizitatori. Cotidianul ezită s-o facă
pentru că nu e așa cunoscut ca EVZ și are și baza de date care nu
suportă diacriticele.