Я ищу наборы данных со всем китайским произведением Мандарин в bopomofo и/или пиньинь. Кроме того, мне нужны наборы данных с открытым исходным кодом, которые я могу скопировать в свои собственные базы кода.Где я могу найти китайский символ bopomofo/pinyin data?
ответ
Похоже, что вы можете найти базу данных Unihan. База данных Unihan поддерживается Консорциумом Unicode.
База Unihan является хранилищем коллективного знания Unicode Консорциума в отношении к CJK Унифицированные идеографические, содержащихся в стандарте Unicode. Он содержит данные сопоставления, позволяющие преобразовывать в и из других кодированных наборов символов и дополнительную информацию , чтобы помочь реализовать поддержку различных языков, в которых используется идеографический сценарий Han .
Например, здесь the data for 爱.
Адрес the description of the organization and content из Unihan Database. Обязательно прочтите это, чтобы понять, на что ссылаются данные.
Если информация, которую вы хотите, вы можете download the ZIP archive, которая содержит все эти данные.
В базе данных Unihan нет произнесений Bopomofo (Zhuyin), но они имеют показания пиньинь. Преобразование из Пиньинь в Чжуин простое; есть много онлайн-инструментов, которые могут сделать это за вас.
Что касается проблем с лицензированием, файлы данных базы данных Unihan имеют a liberal copyright notice. Таким образом, вы не должны сталкиваться с какими-либо проблемами с использованием этих данных в своем собственном программном обеспечении.
это немного поздняя запись, но я искал то же самое в прошлом году и закончил сборку моей собственной базы данных/bopomofo на основе множества различных наборов данных. Я поместил достаточно работы в эту штуку, чтобы полностью называть ее своей, хотя так вы должны ее проверить! его часть рубигема, которую я сделал для сортировки по bopomofo (у меня была система, которая не позволила бы мне изменять настройки коллимации базы данных) https://github.com/nallan/a-b-chi
- 1. Где я могу найти этот символ Юникода?
- 2. найти китайский символ с помощью C# ??
- 3. Где я могу найти getLevel()?
- 4. Где я могу найти старые ссылки Ember/Ember-data?
- 5. Где я могу найти все «вещи» Data Annotation (Validation)
- 6. Как я могу получить китайский символ, используя raw_input
- 7. HttpURLConnection outputstream китайский символ
- 8. tcpdf encode китайский символ
- 9. Где я могу найти libdecodeqr.lib?
- 10. Где я могу найти символ _GetCurrentProcess на OS X?
- 11. JTextField читать китайский символ
- 12. Lua чтение китайский символ
- 13. Где я могу найти tomesh.c?
- 14. Где я могу найти org.restlet.android.jar?
- 15. Где я могу найти ESAPI.properties?
- 16. Где я могу найти Microsoft.Tools.WindowsInstallerXml.dll?
- 17. Где я могу найти AuthComponent.php?
- 18. Где я могу найти ipseccmd.exe?
- 19. Где я могу найти libfltk.a?
- 20. Где я могу найти KeyGenParameterSpec.java
- 21. Где я могу найти GACUtil?
- 22. Где я могу найти CommandTarget?
- 23. Где я могу найти bower_components?
- 24. , где я могу найти IContentTypeManager
- 25. Где я могу найти Opc.Ua.ModelCompiler.exe?
- 26. Где я могу найти com.android.dx.cf.cst.ConstantPoolParser?
- 27. Где я могу найти tcadsdll.dll?
- 28. Где я могу найти TableDiff.exe?
- 29. Где я могу найти edu.stanford.nlp.parser.nndep
- 30. Где я могу найти ssbdiagnose
Спасибо! Я нашел [другую базу данных] (http://www.mdbg.net/chindict/chindict.php?page=cedict), но unihan, похоже, лучше подходит для проблемы. Я также написал JS пиньинь для zhuyin конвертер: https://github.com/nathanathan/pinyinToZhuyin –