Từ điển Dữ liệu Lingvo & StarDict cho cả iOS, Macbook, Android, BlackBerry (9 từ điển-02/2016)

lethienov

Thành viên thường
Đây là ảnh chụp 1 trang từ điển và file word sau khi nhận diện, rất triển vọng, sẽ giúp nhập liệu nhanh hơn
 

Attachments

TUTU

Thành viên xác nhận
Xin chào bạn @lethienov !

Đầu tiên là rất hoan nghênh ý tưởng của bạn. Sau mình có ít ý kiến từ kinh nghiệm bản thân thế này:
1/ Bộ từ điển Việt-Nga đồ sộ nhất, mới nhất là Đại từ điển Việt-Nga, xuất bản 2013. Nó có 80.000 từ, có vẻ là đầy đủ công phu nhất.
Tham khảo ở link sau: http://www.tienphong.vn/xa-hoi/30-nam-miet-mai-va-bo-dai-tu-dien-vietnga-do-so-655222.tpo
2/ Nói bạn đừng buồn, bản nhận dạng của bạn không phải là tốt, thậm chí là hỏng. Nó không thể dùng được. Nhập tay thủ công thì tổng thời gian làm tới lúc có sản phẩm còn nhanh hơn nhiều.
3/ Để nâng cao chất lượng nhận diện, các trang cần phải scan với chất lượng trên 300dpi. Tuy nhiên, với từ điển quá phức tạp, như Nga-Việt, Việt-Nga phổ thông thì vẫn ra kết quả kém.
Lý do độ phức tạp:
+ Tiếng Việt có nhiều dấu, khi nó nhỏ hay nhầm và mất.
+ Tiếng Nga có thể có trọng âm
+ Nga-Việt lẫn lộn trong một dòng
+ Các kí tự đặc biệt, phát âm, từ loại, cách chia động từ...
+ Chương trình nhận dạng FineReader có sử dụng từ điển Nga, Việt làm cơ sở so sánh, nhưng nó cũng hay "lựa chọn" sai từ.
4/ Sản phẩm ra lò cần đảm bảo độ chính xác cao nhất về chính tả. Do đó nhận dạng rồi vẫn phải đọc kiểm tra từng chữ, và cả dùng máy tính quét lỗi phổ biến. Nếu nhận dạng có vấn đề, thì giai đoạn kiểm tra này rất rất tốn công sức.
Kết luận: Bản Việt-Nga hiện tại là dịch ngược từ Nga-Việt, nên tôi vẫn muốn làm cuốn Đại từ điển Việt-Nga. Tuy nhiên kinh nghiệm xương máu cho thấy là không có cách nào tốt hơn đông người ngồi gõ thủ công theo một chuẩn cho trước. Mỗi trang nhập vào cẩn thận mất cỡ 1h, cả cuốn chắc tầm 2000tr. Có 100 người biết tiếng Nga, cẩn thận, chia mỗi người 20tr thì cũng khá nhanh. Còn ít người thì mình làm túc tắc cũng khá lâu :)) Do tôi không có nhiều người vậy, nên tạm thời chờ coi sau công nghệ nhận dạng tốt hơn, hoặc nghĩ ra cách gì đó thì mới làm.

Trân trọng!
 

lethienov

Thành viên thường
Xin chào bạn @lethienov !

Đầu tiên là rất hoan nghênh ý tưởng của bạn. Sau mình có ít ý kiến từ kinh nghiệm bản thân thế này:
1/ Bộ từ điển Việt-Nga đồ sộ nhất, mới nhất là Đại từ điển Việt-Nga, xuất bản 2013. Nó có 80.000 từ, có vẻ là đầy đủ công phu nhất.
Tham khảo ở link sau: http://www.tienphong.vn/xa-hoi/30-nam-miet-mai-va-bo-dai-tu-dien-vietnga-do-so-655222.tpo
2/ Nói bạn đừng buồn, bản nhận dạng của bạn không phải là tốt, thậm chí là hỏng. Nó không thể dùng được. Nhập tay thủ công thì tổng thời gian làm tới lúc có sản phẩm còn nhanh hơn nhiều.
3/ Để nâng cao chất lượng nhận diện, các trang cần phải scan với chất lượng trên 300dpi. Tuy nhiên, với từ điển quá phức tạp, như Nga-Việt, Việt-Nga phổ thông thì vẫn ra kết quả kém.
Lý do độ phức tạp:
+ Tiếng Việt có nhiều dấu, khi nó nhỏ hay nhầm và mất.
+ Tiếng Nga có thể có trọng âm
+ Nga-Việt lẫn lộn trong một dòng
+ Các kí tự đặc biệt, phát âm, từ loại, cách chia động từ...
+ Chương trình nhận dạng FineReader có sử dụng từ điển Nga, Việt làm cơ sở so sánh, nhưng nó cũng hay "lựa chọn" sai từ.
4/ Sản phẩm ra lò cần đảm bảo độ chính xác cao nhất về chính tả. Do đó nhận dạng rồi vẫn phải đọc kiểm tra từng chữ, và cả dùng máy tính quét lỗi phổ biến. Nếu nhận dạng có vấn đề, thì giai đoạn kiểm tra này rất rất tốn công sức.
Kết luận: Bản Việt-Nga hiện tại là dịch ngược từ Nga-Việt, nên tôi vẫn muốn làm cuốn Đại từ điển Việt-Nga. Tuy nhiên kinh nghiệm xương máu cho thấy là không có cách nào tốt hơn đông người ngồi gõ thủ công theo một chuẩn cho trước. Mỗi trang nhập vào cẩn thận mất cỡ 1h, cả cuốn chắc tầm 2000tr. Có 100 người biết tiếng Nga, cẩn thận, chia mỗi người 20tr thì cũng khá nhanh. Còn ít người thì mình làm túc tắc cũng khá lâu :)) Do tôi không có nhiều người vậy, nên tạm thời chờ coi sau công nghệ nhận dạng tốt hơn, hoặc nghĩ ra cách gì đó thì mới làm.

Trân trọng!
Vậy diễn đàn ta nên kêu gọi lập nhóm nhập liệu từ điển Nga Việt, dần dần rồi cũng sẽ xong thôi
Bản 80000 từ mình chưa có cơ hội xem, nhưng đọc ở đây thì có vẻ bản từ điển này viết dành cho người Nga nghiên cứu tiếng Việt, có bạn nào đã xem cuốn này rồi thì xác nhận giúp
 

Hồng Nhung

Quản lý cấp 2
Thành viên BQT
Супер-Модератор
@TUTU@lethienov : Bây giờ cũng đang bắt đầu kỳ nghỉ hè ở Vn, và bên Nga thì cuối tháng 6. Em nghĩ có thể kêu gọi được các bạn sinh viên tham gia nhập thông tin từ điển vào máy trong dịp hè được. Nếu các anh đã có bản pdf rồi, thì có thể tiến hành kêu gọi từ bây giờ.
 

lethienov

Thành viên thường
@TUTU@lethienov : Bây giờ cũng đang bắt đầu kỳ nghỉ hè ở Vn, và bên Nga thì cuối tháng 6. Em nghĩ có thể kêu gọi được các bạn sinh viên tham gia nhập thông tin từ điển vào máy trong dịp hè được. Nếu các anh đã có bản pdf rồi, thì có thể tiến hành kêu gọi từ bây giờ.
Chào bạn supermod
Trước tiên là mình xin cảm ơn sự quan tâm của ban quản trị đến ý kiến của mình, với sự ủng hộ của supermod làm mình có thêm động lực hơn
Bản từ điển thì mình có bản giấy, đó là bản Từ điển Việt Nga, NXB văn hóa thông tin, Hà Nội, 2003, bản này là từ điển Việt Nag 60000 từ dùng cho người Việt, khoảng 800 trang. Nếu mọi người chọn bản này thì mình hoàn toàn có thể chụp hình gửi. Cuốn này giá bìa là 150000 đồng.
Nếu chọn bản Đại từ điển Việt Nga thì mình không có, nếu bạn nào có thì hãy chụp hình chia sẻ
Về việc lập đội nhập liệu, mình nghĩ nếu huy động toàn bộ thành viên của diễn đàn cũng sẽ được kha khá, mùa hè bên Nga rảnh rỗi cũng có thể huy động các bạn sinh viên.
Một phần quan trọng nữa là phần kỹ thuật, hiện mình không rành việc convert dữ liệu sang định dạng dsl hay stardict, cần phải có người có chuyên môn như bác TUTU đứng ra hướng dẫn, chỉ đạo đội nhập liệu sao cho đúng quy chuẩn
 

Chinh Dohoang

Thành viên thường
For IOS 9.3.1 (updated 05/07/2016): Cách nạp từ điển vào gurudic bằng ifunbox (đã thành công).
1. Tải và cài đặt ifunbox (Free mà tiện hơn cả itunes) về từ trang chủ http://www.i-funbox.com/en_download.html
2. Kết nối thiết bị của Táo ngố vào máy tính.
3. Mở ifunbox, tìm "file browser"->"user apllications"->"GuruDic"-> (chuột trái) "open sandbox". Tại đây, tạo thư mục mới với tên bất kỳ.
4. Mở thư mục đó (hiện tại vẫn trống) nhấp vào "copy from PC". Chọn thư mục chứa từ điển (file .zip) -> bung nén file cần nạp (chuột phải->extract here).
5. Mở đến hết thư mục vừa bung nén, sẽ có một vài tệp tin hiện ra. Gõ "Ctrl+A" (Sellect all)->"open" rồi chờ lệnh copy kết thúc.
6. Tìm thiết bị của mình ở hàng trên cùng, phía bên phải của cửa sổ ifunbox-> (chuột trái) "device safe removal".
7. Khởi động lại GuruDic trên thiết bị di động -> Xong, từ điển tự xuất hiện trong list, ko cần cài.
P/s: Sau vụ này thấy ghét Apple hơn (nhưng vẫn yêu Steve Jobs)!
Mọi người tiến hành nếu có gì không rõ ràng liên hện qua Facebook nhá: https://www.facebook.com/ngoceuro .
Thanks everybody!
Phần dữ liệu tiếng Việt khó cài quá.
 
Top