gboard吧 关注:276贴子:1,165
  • 12回复贴,共1

分享一些个人的基本数据

只看楼主收藏回复

谷歌拼音数据词条4.6万,谷歌输入法词库12.4万。不弄太大了,弄太大不稳定也不适合折腾。
网盘链接 提取码love



IP属地:陕西来自Android客户端1楼2024-01-28 23:18回复
    不包含个人数据,这不能分享,所以可以通过谷歌拼音导入一定词条数据融合自己的词库生成user3-3文件然后替换给谷歌输入法使用即可。这样谷歌输入法就拥有一定量的词条改善输入了,词库是另一种用法所以词库再大谷歌拼音数据词条太少也是难以改善使用体验的,因为词库数据再多你有可能是不怎么用的,而细胞词条才是云输入加持的根本。


    IP属地:陕西来自Android客户端2楼2024-01-28 23:24
    回复
      而通过切换输入法写入user3-3 在10的版本几乎全部可以11的有的可以有的不行,所以最多玩到11版本对于汉语而言,也有了词库功能,就没必要太老的版本了,第8的版本没有词库功能也是通过切换输入法写入数据,何不玩第十的版本呢。


      IP属地:陕西来自Android客户端3楼2024-01-28 23:30
      回复
        所以我在文件里添加了一个10.85的版本。10的版本还是比较靠谱的,到了11有的就变了。


        IP属地:陕西来自Android客户端4楼2024-01-28 23:35
        回复
          对于谷歌输入法数据词库的一些看法
          输入法本身不够智能
          你所产生的词条需要产生两次,一个词语的一个就是短语的,并不会因为你产生了新的细胞词语而去帮助你重组形成短语,也不会因为你的短语涉及的词语能够帮你拆分重组到其他地方使用。这就使得我们开始追求大量的数据
          输入法数据的不稳定性
          在不使用外网的情况下是能够食用谷歌拼音的数据的,不管新版旧版,所谓区别看得见的就是词库稳定性的优化,其他使用并不见得有什么区别,另外就是旧版有着切换就能记录的功能而到了新版需要杀后台才能重新获得切换写入的功能。回到词库应该也是有所限制超过百万词库无论新旧要么只显示部分要么一下全都没了。所以就使用而言词库我倒是不太是追求大,使用体验的效率还是词语数据匮乏以及重组能力孱弱。这是不联网的情况,你以为联网开放功能就能稳定了吗,也不稳定,备份恢复竟然也遇到了外网而数据减小丢失数据的情况,虽然没有我折腾时候出现的输入法异常不如文字丢失,键位错乱这些情况,就是单纯的丢失数据,所以要想相对稳定的使用还是当做本地谷歌拼音来看待,另外就是词库有所限制。
          常见的问题1
          数据不能保存-----谷歌输入法的保存机制。
          看过我说的都知道不止一次提到新旧版本对于写入的操作模式,11.2及其以下通过切换并可写入,11.3及其以上便开始只有一次的写入机会,所以我推荐10.85一个是不取其头怕功能不稳定,肯定不是越老越好,第八的版本也是切换写入跟最高的11.2是一样的,也不取其尾怕有新的基因不知道哪天不稳定了出问题那就白瞎了,例如网络导致数据的丢失这就是他储存数据模式的更新。就好比机械硬盘坏了你就还可以恢复数据,作为存储使用,固态硬盘虽然速度快但是坏了只能找上帝要,就类似这个栗子吧,所以我是这么认为的,怕他有新的基因而不知道。
          常见问题2
          数据词条的乱报------数据本身的词频污染。
          上面说了他本身的能力不够聪明在加上导入谷歌拼音数据后本身的词频污染,所以我一直推荐数据上不要采用他人的常用短语,所以我的输入法里面的数据是没有第三方的个人词库,只会导入一些名词,如果词库不干净我也会通过深蓝过滤只要2-4个字的细胞词条,这样方便重组语句,如果太长是没用的,因为每个人说话不一样,用词不一样这样就导致长长的语句作为数据是没用的,另外作为交流使用即使全称很规范但是太长谁会每次提及呢,例如我是广西的,大概率我会说到广西这个词语,这个细胞词条作为数据对我而言才是有用,不会有一个广西仔每次说话都说自己是中华人民共和国广西省壮族自治区哪哪哪的吧,所以就算有这样的词条大概率也是个垃圾词条除非专业人士,所以以这些作为数据更是无用的,所以我在数据的审核上是只需要2-4个字的为主,而词库的使用方式不是影响当下输入所以他倒是无所谓。这就是我对谷歌拼音该导入的数据的一种审核或者说我的规矩。然后通过mt文件夹替换33数据重启即可获得谷歌拼音的数据不管有没有他人的,这时候词频的污染就来了,你会发现有时候输入文字老是站在前面哪怕不断输入哪怕选取后边的这个输入法也没法跟你调整,这就是词频污带来的问题,本身它自己不够智能已经说了在加上词频污染那么这个输入法的使用体验是不会好的,当然也有解决办法就是你不要管他,这次输入了选择了后边的词条你也别较劲不停输入要他记住,你只需要下次切换一下就OK了,话说回来你导入的大量数据你现在发现一个污染词条那还有多少你又知道吗,是只有这一个还是成千上万个,这就不得不重视了,否则接下来你需要成千上万次的切换学习记忆消除污染,所以我说在底层数据上一个要可用,谷歌拼音的数据不需要那么长的除非你在谷歌拼音里用,这不是谷歌输入法能比的,所以数据要可用,接下来就是要干净。比如一个数据没有纯新安装的输入法只要不触及词语的匮乏其实他还是清醒好用的。
          所以解决的办法就是
          A。把你需要的词库不管搜狗还是百度还是自己的通过深蓝词库转换进行适当的调整例如2-3个字统一调整或者某些词库你需要4-5个字那就单独转换调整,保证你自己的使用习惯下这些词语数据是可用的而不是垃圾词条。
          B。但所有的数据整理好后通过全部一并拉进深蓝词库这时候会生成一个词库文件,但是这时候我的习惯会解决我上面说的词频污染的问题,虽然深蓝默认是1但是还是会有词频污染,所以我的操作就是合并为一个文件的时候会把高级设置的词频统统统一强制为0,哪怕是1的词频都会影响输入法的排序。我们只是把它当成底层数据而已并不是要他优先呈现,如果合你的胃口优先显示的词语你会觉得很好,但是如果不合你胃口不需要的呢,又有多少。如果只是单纯追求数据庞大其实一点不合胃口那这个数据庞大的优先呈现对你而言简直又是一番磨难。所以数据一个要确定数据内容避免垃圾词条,一个词频强制为0解决词频污染。接下来你的使用你的词频调整才是你的东西,以后就不要乱加数据了。


          IP属地:陕西来自Android客户端7楼2024-02-04 05:58
          回复
            接下来你的使用就不要乱加东西了除非是词库,因为我在食用以往的数据是通过替换谷歌拼音的33文件,通过谷歌拼音这个中转站实现的,所以如果你后期继续加东西,怎么操作词频,谷歌输入法的数据无法导出,难道又重新折腾一番词频为0重新在这个海量数据里养词库?还是以往的默认词频新来的词频为0?以往的词条你用了多少有的一次没用现在大赦天下,用过一百次的词语一人之下万人之上现在贬为庶民,所以谷歌输入法就是首先折腾确定谷歌拼音的数据,然后就踏实玩,就这样。以后就是通过备份来更新自己的使用情况。所以新手一定要确定好这些基础的东西。
            所以谷歌输入法
            写入数据的模式决定了不能只有一个输入法
            数据跟词库的使用区别,决定了谷歌拼音该融合什么东西数据,以及数据词频的干扰问题,词库该导入什么并且还有一定容量的限制
            输入法本身不具备同步功能折腾一番使用一番的数据该通过备份解决。
            所以下面给个图看看,不管输入法词库数据是否庞大重组能力是否聪明,终究是人在用,导入这么多也就是个数据是个底层数据哪怕是网络热词也是别人热,但不能替我做主终究是我在用,所以原始状态下不管有没有导入数据你该怎么排序还是怎么排序。至于调整是我使用的情况决定的。只有这样才能保证相对愚蠢的谷歌输入法没有耍小聪明。也只有这样才值得深耕。




            IP属地:陕西来自Android客户端8楼2024-02-04 06:14
            回复
              另外补充说明一点在大量的数据填充后不仅有我说的无效词条垃圾词条这是我们要尽量避免的,但是也只能进行简单过滤,在使用过程中输入的选择上如果有词条的类似重复,你的选择会导致输入法清理掉另外的词条,这就是未使用的底层数据与使用中需要的数据会有一个清理,所以只要输入法无异常数据略微变小也是正常的。例如你输入我今天很想你,假设你的数据里有我今天很想你,还有今天我很香你,今天我很线你,等等,你选择了我今天很想你,下次在输入,就只会有这个词条,所以内部有一些清理的机制,例如你给谷歌拼音导入10万数据然后接着导出未必会有10万。所以我觉得是这方面的东西,而自己的个性词语从生成到词频的优化都是特权般的存在只要输入法没异常清理的都不会是特权词条。所以算是正常反应,真正的出问题输入法异常基本都是近乎砍掉一半的大小。


              IP属地:陕西来自Android客户端9楼2024-02-04 07:28
              回复
                当然也有不怕死的就像我这样折腾,网路上找的180兆的33数据文件这是要命呀,谷歌输入法容不下,用一会就给你清空了,谷歌拼音暂时没有,导出也最多导出了77w词条还没导全。在这种海量数据面前要么有你的词汇要么就反噬你,比如最后一张图我要找个是字得越过二十几个词条才到单字,所以要么有你的词就直接选择要么你要的字你这就有点麻烦了,不过话说回来用了那么多年的搜狗输入法,云同步统计我输入了三百多万字其实个人数据也就四万多词条,所以不管词库匮乏还是海量普通人而言也就那点常用词语跟语句。折腾玩吧。





                IP属地:陕西来自Android客户端10楼2024-02-04 11:17
                回复
                  数据太大谷歌拼音也吃不消,不是删除文件而是生成新词条或者词频上的处理需要几次已经处理不过来了跟个谷歌输入法一样


                  IP属地:陕西来自Android客户端11楼2024-02-04 11:23
                  回复
                    所以数据文件要审核过滤,并不是天文地理博古通今,有的领域可能一辈子不提及一个词,在个输入法上却要去弱化他所有的词频。


                    IP属地:陕西来自Android客户端12楼2024-02-04 11:26
                    回复
                      那怎么清理已经导入的词库呢


                      IP属地:山东来自Android客户端13楼2024-04-27 17:14
                      回复
                        怎么备份那种自己养的词库呢


                        IP属地:山东来自Android客户端14楼2024-04-27 20:10
                        回复
                          过期了


                          IP属地:广东来自Android客户端15楼2024-11-03 17:56
                          回复