Itzulpen automatikoaren jatorria.

Posted in Lanak, Rdf0809 on mayo 13, 2009 by Alain

Itzulpen automatikoari ere Machine Translation (MT) deitzen zaio. Hizkuntzalaritza konputazionalaren alor bat da, software-ren bidez, testuak hizkuntza batetik bestera pasatzeko. Bi maila eduki ditzake:

Erraza-> Hizkuntzen artean baliokideak diren hitzak aldatu, nahiz eta jatorrizko zentzua desagertu (Itzulpen literala)

Zehatzagoa -> “Corpus” linguistikoen bidez, itzulpen zailagoak egiten dira, non egokiagoak eta errealagoak baitira.

Baina itzulpen automatikoarena ez da atzo goizekoa; aspalditik dator. Esaten da XVIII. mendean hiztegi mekaniakoak (zenbaki-kode unibertsalak erabiliz) erabiltzen zirela,  hizkuntza desberdineko pertsonak elkarren artean ulertzeko, printzipio logiko eta ikonoetan oinarritutako hizkuntza unibertsal bat lortu arte.

Horregatik, lehenengo ordenagailuak erabilgarri egon zirenetik, 1940. urtearen inguruan, itzulpen automatikoaren afera hil ala bizikoa izan da. Gainera, bigarren mundu-gerra dela medio, metodo konputzazional ugari erabiltzen ziren kodifikatuta zeuden mezuak argitzeko.

Urteak joan urteak etorri, esperimentu eta inbertsio asko egin dira, ikaragarrizko aurrerapenak lortuz. Gaur egun, lengoaiaren industrian itzulpen automatikoa derrigorrezkoa da. Eremu honetan, badaude bi izen aipagarriak direnak: John Hutchins eta Johnatan Slocum.

Iturriak:

-Machine translation (2009ko ekaina): Wikipedia, the free encyclopedia. [2009ko maiatzaren 13ko erreferentzia] Web orrialdea: http://en.wikipedia.org/wiki/Machine_translation

-John Hutchins (2009ko martxoa): Publications on machine translation, computer-based translation technologies, linguistics and other topics. [2009ko maiatzaren 13ko erreferentzia] Web orrialdea: http://www.hutchinsweb.me.uk/

-Jonathan Slocum (2009ko maiatza): Linguistics Research Center. [2009ko maiatzaren 13ko erreferentzia] Web orrialdea: http://www.utexas.edu/cola/centers/lrc/general/facultyhomes/jonathan.html

Anuncios

Hiztegiak

Posted in Lanak, Rdf0809 on mayo 12, 2009 by Alain

Hiztegi bat bilketa-lan bat da hitzak hurrenkera alfabetikoan kontsulta ditzagun. Hitzei buruz zenbait gauza esaten zazikigu, hala nola, kategoria, ortografia,  etimologia, eta hainbat kasutan baita ahoskera ere. Hiztegiak egiten dituen zientzia lexikografia da. Bizitzan zehar, hiztegiak aipatu direnean, paperezko bertsioei egin zaie erreferentzia, baina gaur egun internet-en eskuragarri ditugu.

Hiztegi mota asko daude, haietako batzuk dira:

Lengoaia hiztegiak-> Hitz batek duen esanahia azaltzen da.

Hiztegi etimologikoak-> Hitzen sorrerari buruz informazioa eskaintzen da.

Antonimo eta sinonimo hiztegiak-> Esanahi berdina edo antzekoa daukaten hitzak tartekatzen dira hiztegi hauetan, eta baita kontrakoak direnak ere.

Hizkuntzen hiztegiak -> Beste hizkuntza batzuetan baliokideak diren hitzak aipatzen zaizkigu.

Hiztegi bereziak -> Alor zehatz bateko hitzak argitzen zaizkigu.

Gramatika hiztegiak-> Hemen hurrenkeran agertzen dena estruktura gramatikalak dira.

Dena dela, gehien erabiltzen diren hiztegiak, lengoaia hiztegiak dira. Adibide bi ipintzeagatik, euskaraz eta ingelesez hauek nabarmenduko genituzke:

Ingelesez-> Collins dictionary (Elebakarra) eta Word Reference (Eleaskodun)

Euskaraz-> Euskaltzaindia (Elebakarra) eta Elhuyar (Elebiduna)

o_Diccionarios

Iturriak:

– Lexicografía (2009ko martxoa): Wikipedia, La enciclopedia libre. [2009ko maitzaren 12ko erreferentzia] Web orrialdea: http://es.wikipedia.org/wiki/Lexicografia

Collins dictionary (2009. urtea): Collins lenguage. [2009ko maitzaren 12ko erreferentzia] Web orrialdea: http://www.collinslanguage.com/

– Word reference (2009. urtea) Diccionarios de Español, Inglés, Francés y Portugués. [2009ko maitzaren 12ko erreferentzia] Web orrialdea: http://www.wordreference.com/es/

Hiztegi batua (2008. urtea) Euskaltzaindia. [2009ko maitzaren 12ko erreferentzia] Web orrialdea: http://www.euskaltzaindia.net/hiztegibatua/

– Elhuyar hiztegia (2004. urtea) Elhuyar Fundazioa. [2009ko maitzaren 12ko erreferentzia] Web orrialdea: http://www.euskara.euskadi.net/r59-15172x/eu/hizt_el/index.asp

BNC

Posted in Lanak, Rdf0809 on mayo 9, 2009 by Alain

British National Corpus-a (BNC) 100 milioiko hitz-bilduma da, Erresuma Batuan hitz egiten den ingelesaren erakusgarri dena. BNC-k 4.054 testu ditu; hots, inprimatuz gero 100 metro-paper izango litzateke, eta osorik irakurtzeko 4 urte beharko genituzke.

BNC-a 1990ean sortu zuten eta hurrengo urterako dagoeneko martxan zegoen, lehenengo hiru urteetan ehunka hitz bilduz. 100 milioi horietatik, ehuneko laurogeita hamarra idatzita dauden hitzak dira, eta gelditzen den hamarra literalki transkribatuta daude. Bere lehenengo edizioa 1994an argiratua izan zen.

Bere produktuetako batzuk dira:

-> BNC XML Edition

-> BNC Baby

-> BNC Sampler

-> BNC Corpus

BNC-K duen helbururik garrantzitsuena ingeles hizkuntzaren benetako erabilpenaren berri ematea da,  gramatika liburuek eta hiztegiek ezin baitute modu zehatzean eman. Dena dela, BNC-a pentsatuta dago mundu guztiak erabil dezan, hala nola, ikasleek, irakasleek, ikertzaileaek, linguistek, eta abar.

Iturriak:

British National Corpus (January, 2009) : About the BNC [2009ko maiatzaren 09ko erreferentzia] Web orrialdea:  http://www.natcorp.ox.ac.uk/

British National Corpus (January, 2009) : BNC products [2009ko maiatzaren 09ko erreferentzia] Web orrialdea:  http://www.natcorp.ox.ac.uk/corpus/index.xml.ID=products

“Corpus” linguistikoa

Posted in Lanak, Rdf0809 on mayo 9, 2009 by Alain

“Corpus” linguistiko bat hizkuntza batetik ateratako adibide multzo bat da. Adibide hauek guztiak testuak izaten dira normalean, baina ahozko formatoan ere egon daitezke. Hizkuntzalaraitzak badu adar bat hizkuntzak ikertzen dituena adibide hauen bidez.  Adar honi “Corpus-linguistika” deitzen zaio. Pentsaera honek  talka egiten du Chomsky-k esandakoarekin, hizkuntza hiztunaren intuizioaren bidez ikertu behar baita haren ustez.

“Corpus linguitika” hau parekatzen da “Hizkuntzalaritza konputazionala”-rekin. Disziplina hau 1967an hasi zen Henry Kucera-k eta Nelson Francis-ek “Computational Analysis of Present-Day American English” publikatu zutenean. Hala egiteko, Brown corpus-ean oinarritu ziren,  non gutxi gorabehera Amerikako Estatu Batuetan erabiltzen den ingelesaren milioi bat hitz agertzen baitira.

Iturriak:

Noam Chomsky (2009ko maiatza): Wikipedia, La enciclopedia libre. [2009ko maiatzaren 09ko erreferentzia] Web orrialdea: http://es.wikipedia.org/wiki/Chomsky

Lingüistica computacional (2006. urtea): El portal educativo del Estado argentino. [2009ko maiatzaren 09ko erreferentzia] Web orrialdea: http://aportes.educ.ar/lengua/nucleo-teorico/influencia-de-las-tic/tecnologias-de-la-informacion-y-la-comunicacion-tic-y-lingueistica/lingueistica_computacional.php

Henry Kucera (2009ko apirila): Wikipedia, The Free Encyclopedia. [2009ko maiatzaren 09ko erreferentzia] Web orrialdea: http://en.wikipedia.org/wiki/Henry_Kucera

The Bown Corpus (1998ko otsaila): W-3 Corpora project [2009ko maiatzaren 09ko erreferentzia] Web orrialdea: http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html

La vida del Lazarillo de Tormes y de sus fortunas y adversidades

Posted in Aelejabe, Lanak on enero 14, 2009 by Alain

La vida del Lazarillo de Tormes y de sus fortunas y adversidades es el título completo de la obra mas conocida socialmente como El Lazarillo de Tormes. Tormes es el nombre de un rio que nace en Ávila y que desemboca en el Duero.

Es una obra escrita como una larga carta, es decir de estilo epistolar, y en primera persona.  Se trata de un Bildungsroman; es calificada por muchos como la pionera en las novelas picarescas. En ella se narran las peripecias y tropelias de Lázaro de Tormes desde que nace hasta su edad adulta.

El libro está impreso en 1554, pero luego profundizaré mas sobre este aspecto. Las ediciones correspondientes a ese año fueron impresas en Burgos, Medina del Campo, Alcalá de Henares, y curiosamente en Bélgica, concretamente en Amberes. De cada edición hay un ejemplar, salvo de la edición de Amberes que se conservan siete diferentes. La edición mas recientemente descubierta es la de Medina del Campo; fue encontrada de casualidad por unos operarios  en Agosto de 1992 al derribar  una pared de una vivienda de Barcarrota, en Extremadura, pero lo que no podemos asegurar es que llevara oculto en ese sitio desde 1554. Al tratarse de un libro prohibido, fue escondido de la Inquisición y tal vez pasaría por varios sitios hasta acabar oculto en dicha pared.

Pero sin duda el mayor misterio que esconde el libro es el de su autoría, pues a día de hoy no se sabe con certeza absoluta quien lo escribió. Ha habido muchas hipótesis: Fray Juan de Ortega, Diego Hurtado de Mendoza, los hermanos Alfonso y Juan de Valdés, Sebastian de Horozco y un largo etcétera.  Según un estudio de la filologa y catedrática de Literartura Española  Rosa Navarro Durán, el autor sería Alfonso de Valdés y probablemente el libro hubiera sido impreso primero en Italia antes de 1542. Tras arrancar un folio, seguramente por tener un contenido no apto para aquella época, alguien lo llevaría a España donde sería impreso de nuevo antes de 1548, ya que otros libros y representaciones llevadas a cabo en dicho año evidencian que sus autores ya habian leido y estaban influenciados por El Lazarillo de Tormes.

El libro tuvo una continuación que fue publicada por primera vez en Amberes en 1555, pero apenas tuvo acogida ya que se había cambiado mucho la historia del mismo, dejando a un lado la picaresca y conviertiendolo casi en una alegoría. También ha tenido adaptaciones cinematográficas, siendo las mas resaltables la de 1959 dirigida por Cesar Fernandez Ardavín, y la de 2001, quizás mas en clave de humor, dirigida por Fernando Fernán Gomez y Jose Luis Garcia Sanchez.

lazarillo

El libro digital

Posted in Aelejabe, Lanak, Rdf0809 on enero 13, 2009 by Alain

Para poder hablar del Libro Digital, también conocido como eBook, Ecolibro o Libro-e, hay que remontarse a 1971 cuando el estadounidense Michael Hart decide liderar el Proyecto Gutenberg, que consistía en digitalizar libros de dominio público para poder exibirlos sobre cualquier ordenador.

El término Libro Digital puede ser ambiguo, ya que puede hacer referencia tanto a una obra concreta, como a un dispositivo instalado en ordenadores, e incluso hoy en día en teléfonos móviles,  para poder leer toda clase de libros de forma digital. No debemos olvidar que un Libro-e no es mas que la digitalización de un libro que estaba en versión papel, de tal forma que aqui no podemos hablar de hipertexto. Otra cosa diferente sería poder leer un libro en Internet, lo cual si nos daría opción de tener enlaces que nos llevaran a otros campos de informacíon.

Sea como fuere, y en contra de lo que suele ocurrir  con las nuevas tecnologías, el Libro Digital no cuajó del todo en la sociedad, la cual realizo  una apuesta firme por el libro tradicional de toda la vida. Y de hecho, a pesar de seguir siendo una tecnología que está disponible para el que la quiera usar, su repercusión es muy baja.

Iruña-Veleiako iruzurra.

Posted in Lanak, Rdf0809 on enero 13, 2009 by Alain

Iruña-Veleia aztarnategi arkeologiko baten izena da. Iruña de Oca herrian kokatuta dago, Arabako zabaldiaren hegoaldean Trebiñoko konderrirantz abiatuz, Gazteizetik 10 kilometrotara gutxi gorabehera. Aztarnategiaren azalera 100 hektareakoa da.

Toki horretan, duela urte asko, herri handi bat existitu zen. Herri hori Zadorra haranaren esparruan garrantzitsuena izan zela uste dute ikertzaileek. Beraz, Iruña-Veleiako aztarnategiak 1500 urteko ondareak gordetzen dituela pentsatzen da. Hori dela eta, toki hori betidanik ikertua izan da : 1900 urtean Jaime de Berastegik ikertu zuen, eta baita 1949tik 1954ra Gratiniano Nieto Gallo-k, 1974an Juan Carlos Elorzak eta 1994an Eliseo Gil-ek ere.

2001ean Iruña-Veleia III. Milurteko proiektua onartzen da, Eusko Tren-ek eta Euskal Trenbide Sareak sustatuta. 2006ko azaroan, Eliseo Gil oraindik indusketen nagusia zela, ostraka batzuetan euskararekin zerikusia zuten aurkikuntza epigrafiko batzuk kausitu ziren. Hasiera-hasieratik filologoen ustez aurkikuntza hauek guztiak erabat faltsuak ziren, garai hartako euskarak antzekotasun nabarmenegiak baitzituen gaur egungoarekin.

Ikerketak aurrera joan ahala,  konprobatu ahal izan da aurkikuntza epigrafikoak faltsuak zirela; iruzur bat baino ez zela hau guztia. Hala ere, Eliseo Gil-ek oraindik esaten du aurkikuntza guztiak benetakoak direla. 2008ko abenduaren 5ean Arabako Foru Aldundiak salaketa bat ipini zion Lurmen S. L. enpresari. Ikusiko dugu nola amaitzen dira tira-bira hau.